この論文では、StyleGAN を使用して生成された合成画像の自動ワンショット セグメンテーションのフレームワークを提案します。 「ワンショット セグメンテーション」の必要性に関しては、ネットワークがオンザフライで、つまり、推論時に生成されているときに、画像のセマンティック セグメンテーションを実行する必要があります。フレームワークの実装は、画像合成中にGANによって生成されたマルチスケールの隠れた機能が、自動セグメンテーションに利用できる有用なセマンティック情報を保持しているという観察に基づいています。これらの機能を使用して、提案されたフレームワークは、ジェネレーターの隠れた機能をピクセルごとの分類のためにコンパクトな機能空間に投影する、新しい自己教師ありの対照的なクラスタリング アルゴリズムを使用して、合成画像をセグメント化することを学習します。この対照的な学習器は、イメージとその変換されたバリアントのピクセル単位のクラスター割り当てを使用して計算されたイメージ セグメンテーションにスワップされた予測損失を使用します。クラスタリングのために既に事前にトレーニングされた GAN の隠れた機能を使用すると、これにより、ワンショット セグメンテーション用のピクセル単位の特徴ベクトルの学習がはるかに高速になります。オブジェクトとパーツのセグメンテーションについて、多数の標準ベンチマーク (CelebA、LSUN、PASCAL-Part) で実装をテストしました。私たちの実験の結果は、セグメンテーションのパフォーマンスが半教師ありのベースライン手法よりも優れており、平均 wIoU マージンが 1.02% であるだけでなく、推論速度が最大 4.5 倍向上しています。最後に、提案されたフレームワークを BagGAN の実装に使用した結果も示します。BagGAN は、脅威検出のための注釈付きの合成荷物 X 線スキャンを作成するための GAN ベースのフレームワークです。このワンショット学習フレームワークは、ベースライン セグメンターに近いセグメンテーション パフォーマンスを生み出すために、5 つの異なる脅威カテゴリの PIDRay バゲージ スクリーニング ベンチマークでトレーニングおよびテストされました。
We propose in this paper a framework for automatic one-shot segmentation of synthetic images generated using StyleGANs. As to the need for `one-shot segmentation', we want the network to carry out a semantic segmentation of the images on the fly, that is, as they are being produced at inference time. The implementation of our framework is based on the observation that the multi-scale hidden features produced by a GAN during image synthesis hold useful semantic information that can be utilized for automatic segmentation. Using these features, our proposed framework learns to segment synthetic images using a novel self-supervised, contrastive clustering algorithm that projects the hidden features in the generator onto a compact feature space for per-pixel classification. This contrastive learner uses a swapped prediction loss for image segmentation that is computed using pixel-wise cluster assignments for the image and its transformed variants. Using the hidden features from an already pre-trained GAN for clustering, this leads to a much faster learning of the pixel-wise feature vectors for one-shot segmentation. We have tested our implementation on a number of standard benchmarks (CelebA, LSUN, PASCAL-Part) for object and part segmentation. The results of our experiments yield a segmentation performance that not only outperforms the semi-supervised baseline methods with an average wIoU margin of 1.02 % but also improves the inference speeds by a peak factor of 4.5. Finally, we also show the results of using the proposed framework in the implementation of BagGAN, a GAN-based framework for the production of annotated synthetic baggage X-ray scans for threat detection. This one-shot learning framework was trained and tested on the PIDRay baggage screening benchmark for 5 different threat categories to yield a segmentation performance which stands close to its baseline segmenter.