arXiv reaDer
潜在分類子ガイダンスによる構成的ビジュアル生成の探索
Exploring Compositional Visual Generation with Latent Classifier Guidance
拡散確率モデルは、画像の生成と操作の分野で大きな成功を収めてきました。この論文では、構成的な視覚タスクのための潜在意味論空間における拡散モデルと分類子ガイダンスを使用する新しいパラダイムを探索します。具体的には、潜在拡散モデルと補助潜在分類器をトレーニングして、意味論的潜在空間を持つ事前トレーニング済み生成モデルの潜在表現生成の非線形ナビゲーションを容易にします。我々は、潜在分類子ガイダンスによって達成されるそのような条件付き生成が、トレーニング中の条件付きログ確率の下限を明らかに最大化することを実証します。操作中に元のセマンティクスを維持するために、新しいガイダンス用語を導入します。これは、構成性を達成するために重要であることを示します。追加の仮定を使用して、非線形操作が単純な潜在的な算術アプローチに帰着することを示します。潜在分類器ガイダンスに基づくこのパラダイムが、事前トレーニングされた生成モデルに依存しないことを示し、画像生成と実際の画像と合成画像の逐次操作の両方で競合する結果を示します。私たちの調査結果は、潜在的な分類子ガイダンスが、他の強力な競合手法が存在する場合でも、さらなる研究に値する有望なアプローチであることを示唆しています。
Diffusion probabilistic models have achieved enormous success in the field of image generation and manipulation. In this paper, we explore a novel paradigm of using the diffusion model and classifier guidance in the latent semantic space for compositional visual tasks. Specifically, we train latent diffusion models and auxiliary latent classifiers to facilitate non-linear navigation of latent representation generation for any pre-trained generative model with a semantic latent space. We demonstrate that such conditional generation achieved by latent classifier guidance provably maximizes a lower bound of the conditional log probability during training. To maintain the original semantics during manipulation, we introduce a new guidance term, which we show is crucial for achieving compositionality. With additional assumptions, we show that the non-linear manipulation reduces to a simple latent arithmetic approach. We show that this paradigm based on latent classifier guidance is agnostic to pre-trained generative models, and present competitive results for both image generation and sequential manipulation of real and synthetic images. Our findings suggest that latent classifier guidance is a promising approach that merits further exploration, even in the presence of other strong competing methods.
updated: Wed May 24 2023 06:17:11 GMT+0000 (UTC)
published: Tue Apr 25 2023 03:02:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト