新しいフレームワークを導入して、人間の注釈なしで画像のコレクションからオブジェクトをセグメント化する方法を学習できるモデルを構築します。この方法は、シーンのリアリズムに影響を与えることなく、オブジェクトセグメントの位置を特定の背景に対して局所的に摂動できるという観察に基づいています。私たちのアプローチは、最初にレイヤードシーンの生成モデルを訓練することです。レイヤー表示は、背景画像、前景画像、および前景のマスクで構成されます。次に、マスクされた前景画像を背景にオーバーレイすることにより、合成画像が取得されます。生成モデルは、識別モデルに対して敵対的な方法で訓練され、生成モデルに現実的な合成画像を生成させる。前景レイヤーがオブジェクトに対応する表現をジェネレーターに強制的に学習させるために、背景に対する前景画像とマスクの両方のランダムシフトを導入することにより、生成モデルの出力を摂動させます。ジェネレーターは、出力を計算する前にシフトを認識しないため、このようなランダムな摂動に対して現実的な層状表現を生成する必要があります。最後に、トレーニングするエンコーダーと、フリーズするデコーダーとして事前トレーニング済みのジェネレーターで構成されるオートエンコーダーを定義することにより、画像をセグメント化することを学びます。エンコーダーは画像を特徴ベクトルにマッピングします。特徴ベクトルはジェネレーターへの入力として供給され、元の入力画像と一致する合成画像を提供します。ジェネレーターはシーンの明示的な階層表現を出力するため、エンコーダーはオブジェクトの検出とセグメント化を学習します。いくつかのオブジェクトカテゴリの実際の画像でこのフレームワークを示します。
We introduce a novel framework to build a model that can learn how to segment objects from a collection of images without any human annotation. Our method builds on the observation that the location of object segments can be perturbed locally relative to a given background without affecting the realism of a scene. Our approach is to first train a generative model of a layered scene. The layered representation consists of a background image, a foreground image and the mask of the foreground. A composite image is then obtained by overlaying the masked foreground image onto the background. The generative model is trained in an adversarial fashion against a discriminator, which forces the generative model to produce realistic composite images. To force the generator to learn a representation where the foreground layer corresponds to an object, we perturb the output of the generative model by introducing a random shift of both the foreground image and mask relative to the background. Because the generator is unaware of the shift before computing its output, it must produce layered representations that are realistic for any such random perturbation. Finally, we learn to segment an image by defining an autoencoder consisting of an encoder, which we train, and the pre-trained generator as the decoder, which we freeze. The encoder maps an image to a feature vector, which is fed as input to the generator to give a composite image matching the original input image. Because the generator outputs an explicit layered representation of the scene, the encoder learns to detect and segment objects. We demonstrate this framework on real images of several object categories.