A Diffusion-based Method for Multi-turn Compositional Image Generation
マルチターン合成画像生成 (M-CIG) は、変更テキストを指定して参照画像を反復的に操作することを目的とした挑戦的なタスクです。 M-CIG の既存の方法のほとんどは敵対的生成ネットワーク (GAN) に基づいていますが、最近の画像生成の進歩により、GAN に対する拡散モデルの優位性が実証されています。この論文では、画像合成マッチングによる条件付きノイズ除去拡散(CDD-ICM)と呼ばれるM-CIGの拡散ベースの方法を提案します。画像およびテキスト エンコーダーのバックボーンとして CLIP を活用し、M-CIG の各ターンで参照画像と変更テキストを構成的に融合するために、元々質問応答用に提案されたゲート融合メカニズムを組み込みます。融合結果に基づいてターゲット画像を生成するための条件付けスキームを導入します。生成されたターゲット画像のセマンティック品質を優先するために、マルチタスク学習フレームワークで、条件付きノイズ除去拡散 (CDD) 目的と共に、補助画像合成一致 (ICM) 目的を学習します。さらに、パフォーマンスを向上させるために、ICM ガイダンスと分類器を使用しないガイダンスも実行します。実験結果は、CDD-ICM が M-CIG の 2 つのベンチマーク データセット、つまり CoDraw と i-CLEVR で最先端の結果を達成することを示しています。
Multi-turn compositional image generation (M-CIG) is a challenging task that aims to iteratively manipulate a reference image given a modification text. While most of the existing methods for M-CIG are based on generative adversarial networks (GANs), recent advances in image generation have demonstrated the superiority of diffusion models over GANs. In this paper, we propose a diffusion-based method for M-CIG named conditional denoising diffusion with image compositional matching (CDD-ICM). We leverage CLIP as the backbone of image and text encoders, and incorporate a gated fusion mechanism, originally proposed for question answering, to compositionally fuse the reference image and the modification text at each turn of M-CIG. We introduce a conditioning scheme to generate the target image based on the fusion results. To prioritize the semantic quality of the generated target image, we learn an auxiliary image compositional match (ICM) objective, along with the conditional denoising diffusion (CDD) objective in a multi-task learning framework. Additionally, we also perform ICM guidance and classifier-free guidance to improve performance. Experimental results show that CDD-ICM achieves state-of-the-art results on two benchmark datasets for M-CIG, i.e., CoDraw and i-CLEVR.
updated: Tue Nov 14 2023 02:01:38 GMT+0000 (UTC)
published: Wed Apr 05 2023 02:13:42 GMT+0000 (UTC)
