特定の主題の画像の小さなセットが与えられると、主題主導のテキストから画像への生成は、最近コミュニティでますます注目を集めている新しいテキストの説明に従って、主題のカスタマイズされた画像を生成することを目的としています。現在のサブジェクト主導のテキストから画像への生成方法は、主に事前トレーニング済みの大規模なテキストから画像への生成モデルの微調整に基づいています。ただし、これらの微調整方法は、対象の画像を、対象のアイデンティティに関係のない情報と非常に絡み合った埋め込みにマッピングします。これにより、生成された画像とテキストの説明との間に矛盾が生じ、対象のアイデンティティが変化する可能性があります。この問題に取り組むために、私たちは DisenBooth を提案します。これは、サブジェクト主導のテキストから画像への生成のためのパラメーター効率の高い調整フレームワークです。 DisenBooth を使用すると、埋め込みをアイデンティティ関連部分とアイデンティティ非関連部分に分離することで、主題のアイデンティティを維持し、テキストの説明に準拠する新しい画像を生成できます。具体的には、DisenBooth は事前トレーニング済みの拡散モデルに基づいており、拡散ノイズ除去プロセスで微調整を行います。このプロセスでは、共有 ID 埋め込みと画像固有の ID 非関連埋め込みを組み合わせて各画像のノイズ除去に使用します。 2 つの埋め込みを解きほぐすために、2 つの補助的な目的が提案されています。さらに、微調整効率を向上させるために、パラメーター効率の良い微調整戦略が採用されています。広範な実験により、DisenBooth は、よく絡み合ったアイデンティティ関連およびアイデンティティ非関連の埋め込みを忠実に学習できることが示されています。 DisenBooth は、共有 ID の埋め込みにより、優れたサブジェクト主導のテキストから画像への生成機能を示します。さらに、DisenBooth は、絡み合っていない埋め込みのさまざまな組み合わせを使用して、より柔軟で制御可能なフレームワークを提供します。
Given a small set of images of a specific subject, subject-driven text-to-image generation aims to generate customized images of the subject according to new text descriptions, which has attracted increasing attention in the community recently. Current subject-driven text-to-image generation methods are mainly based on finetuning a pretrained large-scale text-to-image generation model. However, these finetuning methods map the images of the subject into an embedding highly entangled with subject-identity-unrelated information, which may result in the inconsistency between the generated images and the text descriptions and the changes in the subject identity. To tackle the problem, we propose DisenBooth, a disentangled parameter-efficient tuning framework for subject-driven text-to-image generation. DisenBooth enables generating new images that simultaneously preserve the subject identity and conform to the text descriptions, by disentangling the embedding into an identity-related and an identity-unrelated part. Specifically, DisenBooth is based on the pretrained diffusion models and conducts finetuning in the diffusion denoising process, where a shared identity embedding and an image-specific identity-unrelated embedding are utilized jointly for denoising each image. To make the two embeddings disentangled, two auxiliary objectives are proposed. Additionally, to improve the finetuning efficiency, a parameter-efficient finetuning strategy is adopted. Extensive experiments show that our DisenBooth can faithfully learn well-disentangled identity-related and identity-unrelated embeddings. With the shared identity embedding, DisenBooth demonstrates superior subject-driven text-to-image generation ability. Additionally, DisenBooth provides a more flexible and controllable framework with different combinations of the disentangled embeddings.