数ショットのセマンティックセグメンテーションは、いくつかの注釈付きの例のみを監視として、見えないカテゴリのオブジェクト領域を認識することを目的としています。数ショットのセグメンテーションの鍵は、サポート画像とクエリ画像の間に堅牢なセマンティック関係を確立し、過剰適合を防ぐことです。この論文では、数ショットのセマンティックセグメンテーション問題に取り組むための効果的なMulti-similarity Hyperrelation Network(MSHNet)を提案します。 MSHNetでは、新しい生成プロトタイプ類似性(GPS)を提案します。これは、コサイン類似性とともに、サポート画像とクエリ画像の間に強力な意味関係を確立できます。グローバル特徴に基づく局所的に生成されたプロトタイプ類似性は、局所特徴に基づくグローバルコサイン類似性を論理的に補完し、クエリ画像とサポートされる画像との関係は、2つの類似性を同時に使用することによってより包括的に表現できます。さらに、MSHNetのSymmetric Merging Block(SMB)を提案して、マルチレイヤー、マルチショット、およびマルチ類似性のハイパーリレーショナル機能を効率的にマージします。 MSHNetは、特定のカテゴリ機能ではなく類似性に基づいて構築されているため、より一般的な統一性を実現し、過剰適合を効果的に減らすことができます。 2つのベンチマークセマンティックセグメンテーションデータセットPascal-5iおよびCOCO-20iで、MSHNetは1ショットおよび5ショットのセマンティックセグメンテーションタスクで新しい最先端のパフォーマンスを実現します。
Few-shot semantic segmentation aims at recognizing the object regions of unseen categories with only a few annotated examples as supervision. The key to few-shot segmentation is to establish a robust semantic relationship between the support and query images and to prevent overfitting. In this paper, we propose an effective Multi-similarity Hyperrelation Network (MSHNet) to tackle the few-shot semantic segmentation problem. In MSHNet, we propose a new Generative Prototype Similarity (GPS), which together with cosine similarity can establish a strong semantic relation between the support and query images. The locally generated prototype similarity based on global feature is logically complementary to the global cosine similarity based on local feature, and the relationship between the query image and the supported image can be expressed more comprehensively by using the two similarities simultaneously. In addition, we propose a Symmetric Merging Block (SMB) in MSHNet to efficiently merge multi-layer, multi-shot and multi-similarity hyperrelational features. MSHNet is built on the basis of similarity rather than specific category features, which can achieve more general unity and effectively reduce overfitting. On two benchmark semantic segmentation datasets Pascal-5i and COCO-20i, MSHNet achieves new state-of-the-art performances on 1-shot and 5-shot semantic segmentation tasks.