arXiv reaDer
無料でより多くの制御!セマンティック拡散ガイダンスによる画像合成
More Control for Free! Image Synthesis with Semantic Diffusion Guidance
制御可能な画像合成モデルにより、テキストの指示またはサンプル画像からのガイダンスに基づいて多様な画像を作成できます。最近、ノイズ除去拡散確率モデルは、以前の方法よりも現実的な画像を生成することが示され、無条件およびクラス条件の設定で正常に実証されています。このモデルクラスのきめ細かい継続的な制御を検討し、言語または画像のガイダンス、あるいはその両方を可能にするセマンティック拡散ガイダンスの新しい統合フレームワークを紹介します。ガイダンスは、画像テキストまたは画像マッチングスコアの勾配を使用して、事前にトレーニングされた無条件拡散モデルに注入されます。 CLIPベースのテキストガイダンスと、コンテンツおよびスタイルベースの画像ガイダンスの両方を統一された形式で調査します。私たちのテキストガイド合成アプローチは、関連するテキスト注釈なしでデータセットに適用できます。 FFHQおよびLSUNデータセットで実験を行い、きめの細かいテキストガイド画像合成、スタイルまたはコンテンツのサンプル画像に関連する画像の合成、およびテキストと画像ガイダンスの両方を使用した例の結果を示します。
Controllable image synthesis models allow creation of diverse images based on text instructions or guidance from an example image. Recently, denoising diffusion probabilistic models have been shown to generate more realistic imagery than prior methods, and have been successfully demonstrated in unconditional and class-conditional settings. We explore fine-grained, continuous control of this model class, and introduce a novel unified framework for semantic diffusion guidance, which allows either language or image guidance, or both. Guidance is injected into a pretrained unconditional diffusion model using the gradient of image-text or image matching scores. We explore CLIP-based textual guidance as well as both content and style-based image guidance in a unified form. Our text-guided synthesis approach can be applied to datasets without associated text annotations. We conduct experiments on FFHQ and LSUN datasets, and show results on fine-grained text-guided image synthesis, synthesis of images related to a style or content example image, and examples with both textual and image guidance.
updated: Tue Dec 14 2021 19:01:15 GMT+0000 (UTC)
published: Fri Dec 10 2021 18:55:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト