テキストから画像への拡散モデルは、GAN ジェネレーターを別のドメインに適応させるためのトレーニング目標として使用できますか?このホワイト ペーパーでは、分類器を使用しないガイダンスを批評家として活用し、ジェネレーターが大規模なテキストから画像への拡散モデルから知識を抽出できるようにすることを示します。ジェネレーターは、ターゲット ドメインからのグラウンド トゥルース サンプルにアクセスすることなく、テキスト プロンプトによって示される新しいドメインに効率的に移行できます。広範な実験を通じて、この方法の有効性と制御可能性を実証します。 CLIP 損失を最小限に抑えるようにトレーニングされていませんが、モデルは短いプロンプトで以前の作業よりも同等に高い CLIP スコアと大幅に低い FID を達成し、長くて複雑なプロンプトでベースラインを定性的および定量的に上回っています。私たちの知る限り、提案された方法は、大規模な事前トレーニング済みの拡散モデルと蒸留サンプリングをテキスト駆動の画像生成ドメイン適応に組み込む最初の試みであり、以前は不可能だった品質を提供します。さらに、3D 対応のスタイルベースのジェネレーターと DreamBooth ガイダンスにまで作業を拡張しています。
Can a text-to-image diffusion model be used as a training objective for adapting a GAN generator to another domain? In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target domains. We demonstrate the effectiveness and controllability of our method through extensive experiments. Although not trained to minimize CLIP loss, our model achieves equally high CLIP scores and significantly lower FID than prior work on short prompts, and outperforms the baseline qualitatively and quantitatively on long and complicated prompts. To our best knowledge, the proposed method is the first attempt at incorporating large-scale pre-trained diffusion models and distillation sampling for text-driven image generator domain adaptation and gives a quality previously beyond possible. Moreover, we extend our work to 3D-aware style-based generators and DreamBooth guidance.