テキストから画像への拡散モデルは、テキストの概念 (「医師」、「愛」など) から高品質で多様な画像を生成する比類のない能力を実証しています。ただし、テキストをリッチな視覚表現にマッピングする内部プロセスは依然として謎のままです。この研究では、入力テキスト プロンプトを解釈可能な要素の小さなセットに分解することで、テキストから画像へのモデルにおける概念表現を理解するという課題に取り組みます。これは、特定の概念に対して生成された画像を再構成することを目的として、モデルの語彙からのトークンのスパースな重み付けの組み合わせである擬似トークンを学習することによって実現されます。この分解を最先端の安定拡散モデルに適用すると、概念の表現における自明ではない驚くべき構造が明らかになります。たとえば、「大統領」や「作曲家」などの一部の概念は、特定のインスタンス (「オバマ」、「バイデン」など) とその補間によって支配されていることがわかります。 「幸福」などの他の概念は、具体的 (「家族」、「笑い」) または抽象的 (「友情」、「感情」) の関連用語を組み合わせます。 Stable Diffusion の内部動作を調べることに加えて、私たちの方法では、トークンへの単一画像の分解、バイアスの検出と軽減、セマンティックな画像操作などのアプリケーションも可能になります。私たちのコードは https://hila-chefer.github.io/Conceptor/ で入手できます。
Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/