このホワイトペーパーでは、画像内の前景オブジェクトの少数ショットセグメンテーションについて説明します。トレーニング画像の小さなサブセットでCNNをトレーニングします。各サブセットは、いくつかのショット設定を模倣しています。各サブセットでは、一方の画像がクエリとして機能し、もう一方の画像が地上真理セグメンテーションのサポート画像として機能します。 CNNは最初にクエリから機能マップを抽出し、画像をサポートします。次に、クラスの特徴ベクトルが、既知の前景でのサポートの特徴マップの平均として計算されます。最後に、クラスフィーチャベクトルとクエリのフィーチャマップの間のコサイン類似性を使用して、ターゲットオブジェクトをクエリイメージでセグメント化します。 (1)特徴の識別性を改善して、それらの活性化が前景で高く、他では低くなるようにします。 (2)テストでサポートイメージをセグメント化するときに発生する損失の勾配に導かれた専門家集団による推論の強化。 PASCAL- $ 5 ^ i $およびCOCO- $ 20 ^ i $データセットの評価は、既存のアプローチを大幅に上回ることを示しています。
This paper is about few-shot segmentation of foreground objects in images. We train a CNN on small subsets of training images, each mimicking the few-shot setting. In each subset, one image serves as the query and the other(s) as support image(s) with ground-truth segmentation. The CNN first extracts feature maps from the query and support images. Then, a class feature vector is computed as an average of the support's feature maps over the known foreground. Finally, the target object is segmented in the query image by using a cosine similarity between the class feature vector and the query's feature map. We make two contributions by: (1) Improving discriminativeness of features so their activations are high on the foreground and low elsewhere; and (2) Boosting inference with an ensemble of experts guided with the gradient of loss incurred when segmenting the support images in testing. Our evaluations on the PASCAL-$5^i$ and COCO-$20^i$ datasets demonstrate that we significantly outperform existing approaches.