arXiv reaDer
SVDiff: 拡散微調整のためのコンパクトなパラメータ空間
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
拡散モデルは、テキストから画像への生成において目覚ましい成功を収めており、テキスト プロンプトやその他のモダリティから高品質の画像を作成できるようになります。ただし、これらのモデルをカスタマイズする既存の方法は、複数の個人化された主題と過剰適合のリスクを処理することによって制限されます。さらに、パラメータの数が多いため、モデルの保存には非効率的です。この論文では、パーソナライゼーションのための既存のテキストから画像への拡散モデルにおけるこれらの制限に対処するための新しいアプローチを提案します。私たちの方法では、重み行列の特異値を微調整することで、過剰適合や言語漂流のリスクを軽減するコンパクトで効率的なパラメータ空間を実現します。また、複数の被写体の画像生成の品質を向上させるためのカット-ミックス-アンミックスデータ拡張技術と、シンプルなテキストベースの画像編集フレームワークも提案します。私たちが提案する SVDiff 手法は、既存の手法と比較してモデル サイズが大幅に小さく (通常の DreamBooth と比較してパラメータが約 2,200 倍少ない)、現実世界のアプリケーションにとってより実用的です。
Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size compared to existing methods (approximately 2,200 times fewer parameters compared with vanilla DreamBooth), making it more practical for real-world applications.
updated: Sun Jul 02 2023 21:16:39 GMT+0000 (UTC)
published: Mon Mar 20 2023 17:45:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト