Text-Free Learning of a Natural Language Interface for Pretrained Face Generators
Fast text2StyleGAN を提案します。これは、事前にトレーニングされた GAN をテキストガイド付きの人間の顔の合成に適応させる自然言語インターフェースです。 Contrastive Language-Image Pre-training (CLIP) の最近の進歩を利用して、トレーニング中にテキスト データは必要ありません。高速な text2StyleGAN は、テスト時に生成された画像に追加の制御と多様性を提供する条件付き変分オートエンコーダー (CVAE) として定式化されます。私たちのモデルでは、新しいテキスト プロンプトに遭遇したときに、GAN や CLIP の再トレーニングや微調整は必要ありません。以前の作業とは対照的に、テスト時の最適化に依存しないため、以前の作業よりもメソッドが桁違いに高速になります。経験的に、FFHQ データセットでは、私たちの方法は、以前の作業と比較して、さまざまなレベルの詳細を持つ自然言語の説明から、より高速で正確な画像を生成します。
We propose Fast text2StyleGAN, a natural language interface that adapts pre-trained GANs for text-guided human face synthesis. Leveraging the recent advances in Contrastive Language-Image Pre-training (CLIP), no text data is required during training. Fast text2StyleGAN is formulated as a conditional variational autoencoder (CVAE) that provides extra control and diversity to the generated images at test time. Our model does not require re-training or fine-tuning of the GANs or CLIP when encountering new text prompts. In contrast to prior work, we do not rely on optimization at test time, making our method orders of magnitude faster than prior work. Empirically, on FFHQ dataset, our method offers faster and more accurate generation of images from natural language descriptions with varying levels of detail compared to prior work.
updated: Thu Sep 08 2022 17:56:50 GMT+0000 (UTC)
published: Thu Sep 08 2022 17:56:50 GMT+0000 (UTC)
