arXiv reaDer
逆安定拡散: この画像を生成するために使用されたプロンプトは何ですか?
Reverse Stable Diffusion: What prompt was used to generate this image?
安定拡散などのテキストから画像への拡散モデルは、最近多くの研究者の関心を集めており、拡散プロセスの反転は、生成プロセスと、目的の画像を取得するためにプロンプ​​トを操作する方法をより深く理解する上で重要な役割を果たす可能性があります。この目的を達成するために、生成拡散モデルによって生成された画像からテキスト プロンプトを予測する新しいタスクを導入します。提案されたタスクに対処するために、一連のホワイト ボックス モデルとブラック ボックス モデル (拡散ネットワークの重みへのアクセスの有無にかかわらず) を組み合わせます。我々は、改善されたプロンプトを生成する、共同プロンプト回帰とマルチラベル語彙分類目標で構成される新しい学習フレームワークを提案します。私たちの方法をさらに改善するために、ラベル付けノイズが低い(つまり、よりよく位置合わせされている)画像とプロンプトのペアの学習を促進するカリキュラム学習手順と、サンプル間の類似性を使用する教師なしドメイン適応カーネル学習方法を採用します。追加機能としてソース ドメインとターゲット ドメインを追加します。私たちは DiffusionDB データセットで実験を行い、Stable Diffusion によって生成された画像からテキスト プロンプトを予測します。私たちの新しい学習フレームワークは、前述のタスクで優れた結果をもたらし、ホワイトボックス モデルに適用すると最高の利益をもたらします。さらに、興味深い発見もしました。プロンプト生成タスクで拡散モデルをトレーニングすると、モデルがテキストから画像への生成に直接再利用される場合、入力プロンプトとよりよく一致する画像をモデルが生成できるようになります。
Text-to-image diffusion models such as Stable Diffusion have recently attracted the interest of many researchers, and inverting the diffusion process can play an important role in better understanding the generative process and how to engineer prompts in order to obtain the desired images. To this end, we introduce the new task of predicting the text prompt given an image generated by a generative diffusion model. We combine a series of white-box and black-box models (with and without access to the weights of the diffusion network) to deal with the proposed task. We propose a novel learning framework comprising of a joint prompt regression and multi-label vocabulary classification objective that generates improved prompts. To further improve our method, we employ a curriculum learning procedure that promotes the learning of image-prompt pairs with lower labeling noise (i.e. that are better aligned), and an unsupervised domain-adaptive kernel learning method that uses the similarities between samples in the source and target domains as extra features. We conduct experiments on the DiffusionDB data set, predicting text prompts from images generated by Stable Diffusion. Our novel learning framework produces excellent results on the aforementioned task, yielding the highest gains when applied on the white-box model. In addition, we make an interesting discovery: training a diffusion model on the prompt generation task can make the model generate images that are much better aligned with the input prompts, when the model is directly reused for text-to-image generation.
updated: Wed Aug 02 2023 23:39:29 GMT+0000 (UTC)
published: Wed Aug 02 2023 23:39:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト