arXiv reaDer
無料でより多くの制御!セマンティック拡散ガイダンスによる画像合成
More Control for Free! Image Synthesis with Semantic Diffusion Guidance
制御可能な画像合成モデルにより、参照画像からのテキスト指示またはガイダンスに基づいて多様な画像を作成できます。最近、ノイズ除去拡散確率モデルは、以前の方法よりも現実的な画像を生成することが示され、無条件およびクラス条件の設定で正常に実証されています。このモデルクラスのきめ細かい継続的な制御を調査し、言語または画像のガイダンス、あるいはその両方を可能にするセマンティック拡散ガイダンスの新しい統合フレームワークを紹介します。ガイダンスは、画像テキストまたは画像マッチングスコアの勾配を使用して、事前にトレーニングされた無条件拡散モデルに注入されます。統一されたフレームワークで、CLIPベースの言語ガイダンスと、コンテンツおよびスタイルベースの画像ガイダンスの両方について説明します。私たちのテキストガイド合成アプローチは、関連するテキスト注釈なしでデータセットに適用できます。 FFHQおよびLSUNデータセットで実験を行い、きめの細かいテキストガイド画像合成、スタイルまたはコンテンツ参照画像に関連する画像の合成、およびテキストガイダンスと画像ガイダンスの両方を使用した例の結果を示します。
Controllable image synthesis models allow creation of diverse images based on text instructions or guidance from a reference image. Recently, denoising diffusion probabilistic models have been shown to generate more realistic imagery than prior methods, and have been successfully demonstrated in unconditional and class-conditional settings. We investigate fine-grained, continuous control of this model class, and introduce a novel unified framework for semantic diffusion guidance, which allows either language or image guidance, or both. Guidance is injected into a pretrained unconditional diffusion model using the gradient of image-text or image matching scores. We explore CLIP-based language guidance as well as both content and style-based image guidance in a unified framework. Our text-guided synthesis approach can be applied to datasets without associated text annotations. We conduct experiments on FFHQ and LSUN datasets, and show results on fine-grained text-guided image synthesis, synthesis of images related to a style or content reference image, and examples with both textual and image guidance.
updated: Thu Apr 14 2022 19:14:47 GMT+0000 (UTC)
published: Fri Dec 10 2021 18:55:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト