大規模な拡散ベースの生成モデルは、テキスト条件付きの高解像度画像合成にブレークスルーをもたらしました。このようなテキストから画像への拡散モデルは、ランダム ノイズから始まり、テキスト プロンプトを調整しながら、反復的な方法で徐々に画像を合成します。このプロセス全体で合成動作が質的に変化することがわかります。サンプリングの初期では、生成はテキスト プロンプトに強く依存してテキスト整列コンテンツを生成しますが、その後、テキスト条件付けはほとんど完全に無視されます。これは、生成プロセス全体でモデル パラメーターを共有することが理想的ではない可能性があることを示唆しています。したがって、既存の作品とは対照的に、さまざまな合成段階に特化したテキストから画像への拡散モデルのアンサンブルをトレーニングすることを提案します。トレーニングの効率を維持するために、最初に 1 つのモデルをトレーニングし、その後、反復生成プロセスの特定の段階でトレーニングされる特殊なモデルに分割します。 eDiffi と呼ばれる拡散モデルのアンサンブルは、同じ推論計算コストを維持し、高い視覚的品質を維持しながら、テキストの配置を改善し、標準ベンチマークで以前の大規模なテキストから画像への拡散モデルよりも優れています。さらに、T5 テキスト、CLIP テキスト、CLIP 画像の埋め込みなど、さまざまな埋め込みを条件付けに利用するようにモデルをトレーニングします。これらの異なる埋め込みが異なる動作につながることを示します。特に、CLIP画像の埋め込みにより、参照画像のスタイルをターゲットのテキストから画像への出力に転送する直感的な方法が可能になります。最後に、eDiffi の「単語でペイント」機能を有効にする手法を示します。ユーザーは入力テキスト内の単語を選択し、それをキャンバスにペイントして出力を制御できます。これは、目的のイメージを念頭に置いて作成するのに非常に便利です。プロジェクト ページは https://deepimagination.cc/eDiffi/ にあります。
Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiffi, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiffi's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiffi/