arXiv reaDer
テキストから画像への拡散のマルチコンセプトのカスタマイズ
Multi-Concept Customization of Text-to-Image Diffusion
生成モデルは大規模なデータベースから学習したコンセプトの高品質なイメージを生成しますが、ユーザーは自分のコンセプト (家族、ペット、アイテムなど) のインスタンス化を合成したいと考えることがよくあります。いくつかの例が与えられた場合、モデルに新しい概念をすばやく習得するように教えることができますか?さらに、複数の新しい概念を組み合わせることはできますか?既存のテキストから画像へのモデルを拡張するための効率的な方法である Custom Diffusion を提案します。テキストから画像への調整メカニズムでいくつかのパラメーターを最適化するだけで、新しい概念を表現するのに十分強力であり、高速な調整が可能であることがわかりました (約 6 分)。さらに、複数のコンセプトを共同でトレーニングしたり、複数の微調整されたモデルを閉じた形式の制約付き最適化によって 1 つに結合したりできます。私たちの微調整されたモデルは、複数の新しいコンセプトのバリエーションを生成し、それらを新しい設定で既存のコンセプトとシームレスに構成します。私たちの方法は、定性評価と定量評価の両方に関して、いくつかのベースラインと同時作業よりも優れており、メモリと計算効率が優れています。
While generative models produce high-quality images of concepts learned from a large-scale database, a user often wishes to synthesize instantiations of their own concepts (for example, their family, pets, or items). Can we teach a model to quickly acquire a new concept, given a few examples? Furthermore, can we compose multiple new concepts together? We propose Custom Diffusion, an efficient method for augmenting existing text-to-image models. We find that only optimizing a few parameters in the text-to-image conditioning mechanism is sufficiently powerful to represent new concepts while enabling fast tuning (~6 minutes). Additionally, we can jointly train for multiple concepts or combine multiple fine-tuned models into one via closed-form constrained optimization. Our fine-tuned model generates variations of multiple, new concepts and seamlessly composes them with existing concepts in novel settings. Our method outperforms several baselines and concurrent works, regarding both qualitative and quantitative evaluations, while being memory and computationally efficient.
updated: Thu Dec 08 2022 18:57:02 GMT+0000 (UTC)
published: Thu Dec 08 2022 18:57:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト