拡散確率モデルは、画像の生成と操作の分野で大きな成功を収めています。この論文では、合成視覚タスクの潜在的な意味空間で拡散モデルと分類子ガイダンスを使用する新しいパラダイムを探ります。直線的なファッション。具体的には、潜在拡散モデルと補助潜在分類子をトレーニングして、セマンティック潜在空間を持つ事前トレーニング済みの生成モデルの潜在表現生成の非線形ナビゲーションを容易にします。潜在分類子ガイダンスによって達成されるそのような条件付き生成は、トレーニング中に条件付きログ確率の下限を最大化することを実証します。操作中に元のセマンティクスを維持するために、構成性を達成するために重要であることを示す新しいガイダンス用語を導入します。追加の仮定を使用して、非線形操作が単純な潜在的な算術アプローチに還元されることを示します。潜在的な分類器のガイダンスに基づくこのパラダイムは、事前にトレーニングされた生成モデルに依存しないことを示し、画像生成と、実画像および合成画像の順次操作の両方で競争力のある結果を提示します。私たちの調査結果は、他の強力な競合する方法が存在する場合でも、潜在的な分類子ガイダンスがさらなる調査に値する有望なアプローチであることを示唆しています。
Diffusion probabilistic models have achieved enormous success in the field of image generation and manipulation. In this paper, we explore a novel paradigm of using the diffusion model and classifier guidance in the latent semantic space for compositional visual tasks. linear fashion. Specifically, we train latent diffusion models and auxiliary latent classifiers to facilitate non-linear navigation of latent representation generation for any pre-trained generative model with a semantic latent space. We demonstrate that such conditional generation achieved by latent classifier guidance provably maximizes a lower bound of the conditional log probability during training. To maintain the original semantics during manipulation, we introduce a new guidance term, which we show is crucial for achieving compositionality. With additional assumptions, we show that the non-linear manipulation reduces to a simple latent arithmetic approach. We show that this paradigm based on latent classifier guidance is agnostic to pre-trained generative models, and present competitive results for both image generation and sequential manipulation of real and synthetic images. Our findings suggest that latent classifier guidance is a promising approach that merits further exploration, even in the presence of other strong competing methods.