条件付き生成画像モデルの最近の進歩により、印象的な結果が得られました。一方では、テキストベースの条件付きモデルは、画像とテキストのペアの大規模なデータセットを活用することで、驚くべき生成品質を達成しました。ただし、きめ細かな制御を可能にするために、テキストベースのモデルには長いプロンプトが必要であり、その詳細はモデルによって無視される可能性があります。一方、レイアウトベースの条件付きモデルも大幅な進歩を遂げています。これらのモデルは、バウンディング ボックスまたはセグメンテーション マップに依存して、粗いセマンティック ラベルと組み合わせて正確な空間条件付けを行います。ただし、セマンティック ラベルを使用して詳細な外観特性を表現することはできません。このホワイトペーパーでは、クラスや属性ラベルを必要とせずに、目的のシーンの豊富な視覚的説明とその中のオブジェクトの外観と場所を可能にする画像コラージュを通じて、きめ細かいシーンの制御可能性に取り組みます。 「シーンの混合とマッチング」(M&M) を導入します。これは、コラージュ内のさまざまな要素の外観の特徴と空間位置を条件として、敵対的に訓練された生成画像モデルで構成され、これらを一貫した画像に統合するアプローチです。 OpenImages (OI) データセットでモデルをトレーニングし、OI および MS-COCO データセットから派生したコラージュでモデルを評価します。 OI データセットに関する私たちの実験は、M&Ms が画質とサンプルの多様性の点で非常に競争力がある一方で、きめ細かなシーンの制御性の点でベースラインよりも優れていることを示しています。 MS-COCO データセットでは、2 桁少ないパラメーターとデータを使用しているにもかかわらず、ゼロ ショット FID メトリックに関して DALL-E よりも優れていることにより、モデルの一般化能力を強調しています。コラージュベースの生成モデルは、直感的に使用でき、高品質の生成を生成するため、効率的かつ効果的な方法でコンテンツ作成を進める可能性があります。
Recent advances in conditional generative image models have enabled impressive results. On the one hand, text-based conditional models have achieved remarkable generation quality, by leveraging large-scale datasets of image-text pairs. To enable fine-grained controllability, however, text-based models require long prompts, whose details may be ignored by the model. On the other hand, layout-based conditional models have also witnessed significant advances. These models rely on bounding boxes or segmentation maps for precise spatial conditioning in combination with coarse semantic labels. The semantic labels, however, cannot be used to express detailed appearance characteristics. In this paper, we approach fine-grained scene controllability through image collages which allow a rich visual description of the desired scene as well as the appearance and location of the objects therein, without the need of class nor attribute labels. We introduce "mixing and matching scenes" (M&Ms), an approach that consists of an adversarially trained generative image model which is conditioned on appearance features and spatial positions of the different elements in a collage, and integrates these into a coherent image. We train our model on the OpenImages (OI) dataset and evaluate it on collages derived from OI and MS-COCO datasets. Our experiments on the OI dataset show that M&Ms outperforms baselines in terms of fine-grained scene controllability while being very competitive in terms of image quality and sample diversity. On the MS-COCO dataset, we highlight the generalization ability of our model by outperforming DALL-E in terms of the zero-shot FID metric, despite using two magnitudes fewer parameters and data. Collage based generative models have the potential to advance content creation in an efficient and effective way as they are intuitive to use and yield high quality generations.