注意ベースのトランスフォーマーネットワークは、ほぼすべての言語タスクで比類のない成功を収めていますが、画像に含まれる多数のトークン(ピクセル)と2次アクティベーションメモリの使用量により、コンピュータービジョンの問題が発生しにくくなっています。そのため、言語から言語への翻訳はトランスフォーマーモデルによって革命を起こしましたが、畳み込みネットワークは依然として画像から画像への翻訳の事実上のソリューションです。最近提案されたMLP-Mixerアーキテクチャは、トランスフォーマーモデルを望ましいものにする長距離接続を維持しながら、注意ベースのネットワークに関連する計算上の問題の一部を軽減します。自己注意の代わりにこのメモリ効率の高い代替手段を活用して、MixerGANと呼ばれる対になっていない画像から画像への変換における新しい探索モデルを提案します。これは、高価な注意メカニズムを必要とせずにピクセル間の遠距離恋愛を考慮する、より単純なMLPベースのアーキテクチャです。定量的および定性的分析は、MixerGANが以前の畳み込みベースの方法と比較した場合に競争力のある結果を達成することを示しています。
While attention-based transformer networks achieve unparalleled success in nearly all language tasks, the large number of tokens (pixels) found in images coupled with the quadratic activation memory usage makes them prohibitive for problems in computer vision. As such, while language-to-language translation has been revolutionized by the transformer model, convolutional networks remain the de facto solution for image-to-image translation. The recently proposed MLP-Mixer architecture alleviates some of the computational issues associated with attention-based networks while still retaining the long-range connections that make transformer models desirable. Leveraging this memory-efficient alternative to self-attention, we propose a new exploratory model in unpaired image-to-image translation called MixerGAN: a simpler MLP-based architecture that considers long-distance relationships between pixels without the need for expensive attention mechanisms. Quantitative and qualitative analysis shows that MixerGAN achieves competitive results when compared to prior convolutional-based methods.