arXiv reaDer
少数ショットのセマンティックセグメンテーションのための動的プロトタイプ畳み込みネットワーク
Dynamic Prototype Convolution Network for Few-Shot Semantic Segmentation
数ショットのセマンティックセグメンテーション(FSS)の主な課題は、一時的なトレーニングシナリオの下で、サポート機能とクエリ機能および/またはそれらのプロトタイプ間の望ましい相互作用をどのように調整するかです。ほとんどの既存のFSSメソッドは、クエリオブジェクトをセグメント化するために、単純な操作(たとえば、コサイン類似性や機能の連結)を利用するだけで、このようなサポートとクエリの相互作用を実装します。ただし、これらのインタラクションアプローチでは、通常、FSSで広く使用されているクエリイメージの固有のオブジェクトの詳細をうまくキャプチャできません。たとえば、セグメント化するクエリオブジェクトに穴とスロットがある場合、ほとんどの場合、不正確なセグメンテーションが発生します。この目的のために、動的プロトタイプ畳み込みネットワーク(DPCN)を提案して、正確なFSSのために前述の本質的な詳細を完全にキャプチャします。具体的には、DPCNでは、サポートフォアグラウンドから動的カーネルを生成するために動的畳み込みモジュール(DCM)が最初に提案され、次にこれらのカーネルを使用したクエリ機能に対する畳み込み操作によって情報の相互作用が実現されます。さらに、DPCNにサポートアクティベーションモジュール(SAM)と機能フィルタリングモジュール(FFM)を装備して、疑似マスクを生成し、クエリ画像の背景情報をそれぞれ除外します。 SAMとFFMを一緒に使用すると、クエリ機能から強化されたコンテキスト情報をマイニングできます。私たちのDPCNは、k-shotFSS設定でも柔軟かつ効率的です。 PASCAL-5iとCOCO-20iでの広範な実験は、DPCNが1ショットと5ショットの両方の設定で優れたパフォーマンスを発揮することを示しています。
The key challenge for few-shot semantic segmentation (FSS) is how to tailor a desirable interaction among support and query features and/or their prototypes, under the episodic training scenario. Most existing FSS methods implement such support-query interactions by solely leveraging plain operations - e.g., cosine similarity and feature concatenation - for segmenting the query objects. However, these interaction approaches usually cannot well capture the intrinsic object details in the query images that are widely encountered in FSS, e.g., if the query object to be segmented has holes and slots, inaccurate segmentation almost always happens. To this end, we propose a dynamic prototype convolution network (DPCN) to fully capture the aforementioned intrinsic details for accurate FSS. Specifically, in DPCN, a dynamic convolution module (DCM) is firstly proposed to generate dynamic kernels from support foreground, then information interaction is achieved by convolution operations over query features using these kernels. Moreover, we equip DPCN with a support activation module (SAM) and a feature filtering module (FFM) to generate pseudo mask and filter out background information for the query images, respectively. SAM and FFM together can mine enriched context information from the query features. Our DPCN is also flexible and efficient under the k-shot FSS setting. Extensive experiments on PASCAL-5i and COCO-20i show that DPCN yields superior performances under both 1-shot and 5-shot settings.
updated: Fri Apr 22 2022 11:12:37 GMT+0000 (UTC)
published: Fri Apr 22 2022 11:12:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト