STransGAN: An Empirical Study on Transformer in GANs
Transformerは、コンピュータービジョン、特に高レベルのビジョンタスクで普及しています。ただし、Transformerを生成的敵対的ネットワーク(GAN)フレームワークに展開することは、未解決でありながら困難な問題です。この論文では、高忠実度の画像合成のためのGANにおけるTransformerの固有の特性を調査するための包括的な実証的研究を実施します。私たちの分析は、画像生成における特徴の局所性の重要性を強調しています。まず、地域の注意を実装するための効果的な方法を調査します。次に、自己注意層の残余接続の影響を調べ、学習弁別子と条件付き生成器への悪影響を減らすための新しい方法を提案します。私たちの研究は、無条件および条件付き画像生成の両方で競争力のある結果を達成する、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリーのジェネレーターであるGANのトランスフォーマーの新しい設計につながります。 TransformerベースのディスクリミネーターであるSTrans-Dも、CNNベースのディスクリミネーターとのギャップを大幅に減らします。
Transformer becomes prevalent in computer vision, especially for high-level vision tasks. However, deploying Transformer in the generative adversarial network (GAN) framework is still an open yet challenging problem. In this paper, we conduct a comprehensive empirical study to investigate the intrinsic properties of Transformer in GAN for high-fidelity image synthesis. Our analysis highlights the importance of feature locality in image generation. We first investigate the effective ways to implement local attention. We then examine the influence of residual connections in self-attention layers and propose a novel way to reduce their negative impacts on learning discriminators and conditional generators. Our study leads to a new design of Transformers in GAN, a convolutional neural network (CNN)-free generator termed as STrans-G, which achieves competitive results in both unconditional and conditional image generations. The Transformer-based discriminator, STrans-D, also significantly reduces its gap against the CNN-based discriminators.
updated: Mon Oct 25 2021 17:01:29 GMT+0000 (UTC)
published: Mon Oct 25 2021 17:01:29 GMT+0000 (UTC)
