arXiv reaDer
拡散の中の拡散: テキスト視覚条件付き生成のための循環一方向拡散
Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation
拡散モデルを使用した Text-to-Image (T2I) 生成により、ユーザーはテキスト条件が与えられた合成画像のセマンティック コンテンツを制御できます。よりカスタマイズされた画像作成アプリケーションに向けたさらなるステップとして、意味レベルのテキスト入力だけでなくピクセルレベルの視覚条件にも基づいて画像を合成する新しいマルチモダリティ生成設定を導入します。既存の文献では、まず与えられた視覚情報を言語に接続することで意味レベルの表現に変換し、次にそれを元のノイズ除去プロセスに組み込みます。一見直観的に見えるこのような方法論的設計は、セマンティック遷移中にピクセル値を失うため、低レベルの視覚(たとえば、特定の顔画像の ID)の保存が必要なタスク シナリオを実現できません。この目的を達成するために、意味論的なテキストとピクセルの視覚的調整に関してカスタマイズされた画像を作成するためのトレーニング不要のフレームワークである、Cyclic One-Way Diffusion (COW) を提案します。特に、画像のサブ領域が物理的な拡散と同様に相互干渉を課し、ノイズ除去の軌跡に沿って究極の調和を達成していることが観察されています。そこで我々は、ノイズ除去処理の初期化段階で視覚状態を高濃度の「種」として植え付け、調和のとれた画像に「拡散」させることで、与えられた視覚状態を周期的に繰り返し利用することを提案する。視覚状態からの一方向の情報の流れを制御することによって。破壊と構築のプロセスを複数回繰り返し、徐々に、しかし着実に画像内に内部拡散プロセスを課します。挑戦的なワンショット顔とテキスト条件付き画像合成タスクの実験では、学習ベースのテキストビジョン条件付き手法と比較して、速度、画像品質、条件付き忠実度の点で優れていることが実証されました。
Text-to-Image (T2I) generation with diffusion models allows users to control the semantic content in the synthesized images given text conditions. As a further step toward a more customized image creation application, we introduce a new multi-modality generation setting that synthesizes images based on not only the semantic-level textual input but also on the pixel-level visual conditions. Existing literature first converts the given visual information to semantic-level representation by connecting it to languages, and then incorporates it into the original denoising process. Seemingly intuitive, such methodological design loses the pixel values during the semantic transition, thus failing to fulfill the task scenario where the preservation of low-level vision is desired (e.g., ID of a given face image). To this end, we propose Cyclic One-Way Diffusion (COW), a training-free framework for creating customized images with respect to semantic text and pixel-visual conditioning. Notably, we observe that sub-regions of an image impose mutual interference, just like physical diffusion, to achieve ultimate harmony along the denoising trajectory. Thus we propose to repetitively utilize the given visual condition in a cyclic way, by planting the visual condition as a high-concentration ``seed'' at the initialization step of the denoising process, and ``diffuse'' it into a harmonious picture by controlling a one-way information flow from the visual condition. We repeat the destroy-and-construct process multiple times to gradually but steadily impose the internal diffusion process within the image. Experiments on the challenging one-shot face and text-conditioned image synthesis task demonstrate our superiority in terms of speed, image quality, and conditional fidelity compared to learning-based text-vision conditional methods.
updated: Wed Jun 14 2023 05:25:06 GMT+0000 (UTC)
published: Wed Jun 14 2023 05:25:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト