テキストから画像への合成は、大規模な事前トレーニング済み言語モデル、大規模なトレーニング データ、および拡散モデルや自己回帰モデルなどのスケーラブルなモデル ファミリーの導入により、最近大きな進歩を遂げています。ただし、最高のパフォーマンスのモデルでは、単一のサンプルを生成するために反復評価が必要です。対照的に、敵対的生成ネットワーク (GAN) は単一のフォワード パスのみを必要とします。したがって、それらははるかに高速ですが、現在のところ、大規模なテキストから画像への合成において最先端技術に大きく遅れをとっています。この論文は、競争力を取り戻すために必要なステップを特定することを目的としています。私たちが提案するモデル StyleGAN-T は、大容量、多様なデータセットでの安定したトレーニング、強力なテキスト配置、制御可能なバリエーションとテキスト配置のトレードオフなど、大規模なテキストから画像への合成の特定の要件に対応します。 StyleGAN-Tは、以前のGANよりも大幅に改善されており、サンプルの品質と速度の点で、テキストから画像への高速合成における以前の最先端技術である蒸留拡散モデルよりも優れています。
Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.