arXiv reaDer
可変サイズのテキストから画像への合成のためのトレーニング不要の拡散モデルの適応
Training-free Diffusion Model Adaptation for Variable-Sized Text-to-Image Synthesis
拡散モデル (DM) は、テキストから画像への合成における最先端のパフォーマンスにより、最近注目を集めています。深層学習の伝統に従い、DM は固定サイズの画像でトレーニングおよび評価されます。しかし、ユーザーは特定のサイズとさまざまなアスペクト比のさまざまな画像を要求しています。この論文では、視覚的な忠実性を維持しながら、このような多様性に対応できるようにテキストから画像への拡散モデルを適応させることに焦点を当てています。まず、合成中に、低解像度の画像ではオブジェクトの描写が不完全になる一方、高解像度の画像では反復的な表示が行われることが観察されます。次に、注目エントロピーがトークン量に応じて変化することを示す統計的関係を確立し、モデルが画像解像度に比例して空間情報を集約していることを示唆します。私たちの観察に対するその後の解釈は、低解像度では空間情報が限られているために物体が不完全に描写されるのに対し、高解像度では冗長な空間情報によって繰り返し表現が生じるというものです。この観点から、注意エントロピーの変化を軽減し、観察される欠陥パターンを軽減するためのスケーリング係数を提案します。広範な実験結果により、提案されたスケーリング係数の有効性が検証され、モデルがより優れた視覚効果、画質、テキストの配置を実現できるようになります。注目すべきことに、これらの改善は、追加のトレーニングや微調整テクニックを必要とせずに達成されます。
Diffusion models (DMs) have recently gained attention with state-of-the-art performance in text-to-image synthesis. Abiding by the tradition in deep learning, DMs are trained and evaluated on the images with fixed sizes. However, users are demanding for various images with specific sizes and various aspect ratio. This paper focuses on adapting text-to-image diffusion models to handle such variety while maintaining visual fidelity. First we observe that, during the synthesis, lower resolution images suffer from incomplete object portrayal, while higher resolution images exhibit repetitive presentation. Next, we establish a statistical relationship indicating that attention entropy changes with token quantity, suggesting that models aggregate spatial information in proportion to image resolution. The subsequent interpretation on our observations is that objects are incompletely depicted due to limited spatial information for low resolutions, while repetitive presentation arises from redundant spatial information for high resolutions. From this perspective, we propose a scaling factor to alleviate the change of attention entropy and mitigate the defective pattern observed. Extensive experimental results validate the efficacy of the proposed scaling factor, which enables the model to achieve better visual effects, image quality, and text alignment. Notably, these improvements are achieved without additional training or fine-tuning techniques.
updated: Wed Jun 14 2023 17:23:07 GMT+0000 (UTC)
published: Wed Jun 14 2023 17:23:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト