注意: 微調整された拡散モデルにおける精度と解釈可能性のトレードオフ
Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models
画像品質の観点からの拡散モデルの最近の進歩は、生成モデルに関連する研究に大きな変化をもたらしました。現在のアプローチでは、多くの場合、ドメイン固有のテキストと画像のペアを使用して、事前トレーニング済みの基盤モデルを微調整します。このアプローチは、特定の画像にリンクされた放射線レポートの可用性が高いため、X 線画像の生成には簡単です。しかし、現在のアプローチでは、モデルが何を生成しているかをモデルが理解しているかどうかを検証するために注意層を確認することはほとんどありません。この論文では、生成拡散モデルにおける画像の忠実度と解釈可能性の間の重要なトレードオフを発見しました。特に、学習可能なテキストエンコーダーを使用してテキストから画像へのモデルを微調整すると、拡散モデルの解釈可能性の欠如につながることを示しています。最後に、言語エンコーダーをフリーズしたままにすることで、拡散モデルが、追加のトレーニングなしで、困難なマルチラベル セグメンテーション タスクの特定の疾患に対して最先端のフレーズ グラウンディング パフォーマンスを達成できることを示すことによって、拡散モデルの解釈可能性を示します。コードとモデルは で入手できます。
The recent progress of diffusion models in terms of image quality has led to a major shift in research related to generative models. Current approaches often fine-tune pre-trained foundation models using domain-specific text-to-image pairs. This approach is straightforward for X-ray image generation due to the high availability of radiology reports linked to specific images. However, current approaches hardly ever look at attention layers to verify whether the models understand what they are generating. In this paper, we discover an important trade-off between image fidelity and interpretability in generative diffusion models. In particular, we show that fine-tuning text-to-image models with learnable text encoder leads to a lack of interpretability of diffusion models. Finally, we demonstrate the interpretability of diffusion models by showing that keeping the language encoder frozen, enables diffusion models to achieve state-of-the-art phrase grounding performance on certain diseases for a challenging multi-label segmentation task, without any additional training. Code and models will be available at
updated: Fri Mar 31 2023 09:11:26 GMT+0000 (UTC)
published: Fri Mar 31 2023 09:11:26 GMT+0000 (UTC)
