Boundary Knowledge Translation based Reference Semantic Segmentation
画像内の未知のタイプの参照オブジェクトが与えられると、人間の観察者は別の画像内の同じカテゴリのオブジェクトを簡単に見つけて、視覚的な境界を正確に伝えることができます。人間のそのような視覚認識能力は、コンピュータビジョンの現在の研究範囲には欠けているようです。たとえば、既存のセグメンテーションネットワークは、膨大な量のラベル付きデータに依存しています。これは、収集と注釈付けに手間とコストがかかります。さらに、セグメンテーションネットワークのパフォーマンスは、カテゴリの数が増えるにつれて低下する傾向があります。この論文では、視覚的境界知識の翻訳を行うための新しい参照セマンティックセグメンテーションネットワーク(Ref-Net)を紹介します。 Ref-Netには、参照セグメンテーションモジュール(RSM)と境界知識翻訳モジュール(BKTM)が含まれています。人間の認識メカニズムに触発されたRSMは、参照オブジェクトの機能に基づいて同じカテゴリオブジェクトをセグメント化するためだけに考案されています。一方、BKTMは、2つの境界弁別子ブランチを導入して、ターゲットオブジェクトの内側と外側の境界セグメンテーションを敵対的に実行し、オープンソースデータセットの注釈付き境界知識をセグメンテーションネットワークに変換します。徹底的な実験は、ガイダンスとして数十のきめの細かい注釈付きサンプルを使用して、Ref-Netが6つのデータセットで完全に監視された方法と同等の結果を達成することを示しています。
Given a reference object of an unknown type in an image, human observers can effortlessly find the objects of the same category in another image and precisely tell their visual boundaries. Such visual cognition capability of humans seems absent from the current research spectrum of computer vision. Existing segmentation networks, for example, rely on a humongous amount of labeled data, which is laborious and costly to collect and annotate; besides, the performance of segmentation networks tend to downgrade as the number of the category increases. In this paper, we introduce a novel Reference semantic segmentation Network (Ref-Net) to conduct visual boundary knowledge translation. Ref-Net contains a Reference Segmentation Module (RSM) and a Boundary Knowledge Translation Module (BKTM). Inspired by the human recognition mechanism, RSM is devised only to segment the same category objects based on the features of the reference objects. BKTM, on the other hand, introduces two boundary discriminator branches to conduct inner and outer boundary segmentation of the target objectin an adversarial manner, and translate the annotated boundary knowledge of open-source datasets into the segmentation network. Exhaustive experiments demonstrate that, with tens of finely-grained annotated samples as guidance, Ref-Net achieves results on par with fully supervised methods on six datasets.
updated: Sun Aug 01 2021 07:40:09 GMT+0000 (UTC)
published: Sun Aug 01 2021 07:40:09 GMT+0000 (UTC)
