オブジェクト セグメンテーション用のデータセットをキュレートするのは難しい作業です。大規模な事前トレーニング済み生成モデルの出現により、条件付き画像生成は、結果の品質と使いやすさが大幅に向上しました。この論文では、セグメンテーション ラベルを必要とせずに、単純なテキスト記述から一般的な前景 - 背景セグメンテーション モデルを生成できる新しい方法を提示します。事前にトレーニングされた潜在拡散モデルを活用して調査し、概念とオブジェクトの弱いセグメンテーション マスクを自動的に生成します。次に、マスクを使用して、修復タスクで拡散モデルを微調整します。これにより、オブジェクトをきめ細かく除去できると同時に、前景と背景の合成データセットが提供されます。この方法を使用すると、識別性能と生成性能の両方で以前の方法よりも優れており、ピクセル単位のオブジェクト ラベルを必要とせずに、完全に監視されたトレーニングでギャップを埋めることができます。 4 つの異なるオブジェクト (人間、犬、車、鳥) をセグメント化するタスクの結果を示します。
Curating datasets for object segmentation is a difficult task. With the advent of large-scale pre-trained generative models, conditional image generation has been given a significant boost in result quality and ease of use. In this paper, we present a novel method that enables the generation of general foreground-background segmentation models from simple textual descriptions, without requiring segmentation labels. We leverage and explore pre-trained latent diffusion models, to automatically generate weak segmentation masks for concepts and objects. The masks are then used to fine-tune the diffusion model on an inpainting task, which enables fine-grained removal of the object, while at the same time providing a synthetic foreground and background dataset. We demonstrate that using this method beats previous methods in both discriminative and generative performance and closes the gap with fully supervised training while requiring no pixel-wise object labels. We show results on the task of segmenting four different objects (humans, dogs, cars, birds).