ワンショット画像のセマンティックセグメンテーションでは、監視対象として1つの注釈付きの例のみを使用して、目に見えないカテゴリからオブジェクト領域を認識するという困難な作業が発生します。この論文では、ワンショット(SG-One)セグメンテーション問題に取り組むためのシンプルで効果的な類似性ガイダンスネットワークを提案します。同じカテゴリの1つの密にラベル付けされたサポート画像を参照して、クエリ画像のセグメンテーションマスクを予測することを目的としています。サポート画像のロバストな代表的な特徴を取得するには、まず、サポート画像に属するピクセルのみを考慮してガイダンス機能を生成するために、マスクされた平均プーリング戦略を採用します。次に、コサイン類似性を利用して、クエリ機能からのガイダンス機能とピクセルの機能の関係を構築します。このようにして、生成された類似性マップに埋め込まれた可能性を適応させて、オブジェクトをセグメント化するプロセスをガイドできます。さらに、SG-Oneは、1つのネットワーク内でサポートイメージとクエリイメージの両方を効率的に処理し、エンドツーエンドで学習できる統合フレームワークです。 Pascal VOC 2012で大規模な実験を行っています。特に、SGOneは、ベースラインメソッドを上回る46.3%のmIoUスコアを達成しています。
One-shot image semantic segmentation poses a challenging task of recognizing the object regions from unseen categories with only one annotated example as supervision. In this paper, we propose a simple yet effective Similarity Guidance network to tackle the One-shot (SG-One) segmentation problem. We aim at predicting the segmentation mask of a query image with the reference to one densely labeled support image of the same category. To obtain the robust representative feature of the support image, we firstly adopt a masked average pooling strategy for producing the guidance features by only taking the pixels belonging to the support image into account. We then leverage the cosine similarity to build the relationship between the guidance features and features of pixels from the query image. In this way, the possibilities embedded in the produced similarity maps can be adapted to guide the process of segmenting objects. Furthermore, our SG-One is a unified framework which can efficiently process both support and query images within one network and be learned in an end-to-end manner. We conduct extensive experiments on Pascal VOC 2012. In particular, our SGOne achieves the mIoU score of 46.3%, surpassing the baseline methods.