arXiv reaDer
変圧器ジェネレーターと畳み込み弁別器の組み合わせ
Combining Transformer Generators with Convolutional Discriminators
Transformerモデルは最近、コンピュータービジョンの研究者から多くの関心を集めており、それ以来、畳み込みニューラルネットワークで従来対処されてきたいくつかの問題にうまく採用されています。同時に、生成的敵対的ネットワーク(GAN)を使用した画像合成は、過去数年間で大幅に改善されました。最近提案されたTransGANは、トランスベースのアーキテクチャのみを使用する最初のGANであり、畳み込みGANと比較して競争力のある結果を達成します。ただし、トランスフォーマーはデータを大量に消費するアーキテクチャであるため、TransGANでは、データ拡張、トレーニング中の補助的な超解像タスク、および自己注意メカニズムをガイドする前のマスキングが必要です。この論文では、変圧器ベースの発電機と畳み込み弁別器の組み合わせを研究し、前述の必要な設計選択の必要性をうまく排除します。よく知られているCNN弁別器のベンチマークを実施することでアプローチを評価し、変圧器ベースの発電機のサイズをアブレーションし、両方のアーキテクチャ要素をハイブリッドモデルに組み合わせることでより良い結果が得られることを示します。さらに、生成された画像の周波数スペクトル特性を調査し、モデルが注意ベースのジェネレータの利点を保持していることを確認します。
Transformer models have recently attracted much interest from computer vision researchers and have since been successfully employed for several problems traditionally addressed with convolutional neural networks. At the same time, image synthesis using generative adversarial networks (GANs) has drastically improved over the last few years. The recently proposed TransGAN is the first GAN using only transformer-based architectures and achieves competitive results when compared to convolutional GANs. However, since transformers are data-hungry architectures, TransGAN requires data augmentation, an auxiliary super-resolution task during training, and a masking prior to guide the self-attention mechanism. In this paper, we study the combination of a transformer-based generator and convolutional discriminator and successfully remove the need of the aforementioned required design choices. We evaluate our approach by conducting a benchmark of well-known CNN discriminators, ablate the size of the transformer-based generator, and show that combining both architectural elements into a hybrid model leads to better results. Furthermore, we investigate the frequency spectrum properties of generated images and observe that our model retains the benefits of an attention based generator.
updated: Sat Jul 10 2021 10:16:47 GMT+0000 (UTC)
published: Fri May 21 2021 07:56:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト