arXiv reaDer
少数ショット学習のためのプリミティブを意識した識別表現の学習
Learning Primitive-aware Discriminative Representations for Few-shot Learning
フューショット学習 (FSL) は、少数のラベル付き例だけで新しいクラスを認識するために簡単に適応できる分類器を学習することを目的としています。 FSL に関する最近の研究では、画像レベルの特徴を使用して分類用サンプル間の類似性を計算する、有望な分類パフォーマンスが得られています。ただし、画像レベルの特徴は、目に見えるクラスと見えないクラス間で転送可能で一貫性のある、オブジェクトの豊富なきめの細かい構造情報を無視します。人間はどのようにして複数のサンプルを使って新しいクラスを簡単に識別できるのでしょうか?認知科学の一部の研究では、人間はプリミティブを通じて新しいカテゴリーを認識できると主張しています。基本カテゴリと新規カテゴリは重複していませんが、いくつかのプリミティブを共有することができます。上記の研究に触発されて、我々は、メトリックベースの FSL モデルに基づいてプリミティブを認識した表現を学習するためのプリミティブ マイニングおよび推論ネットワーク (PMRN) を提案します。具体的には、まず、特徴抽出器の自己監視ジグソー タスク (SSJ) を並行して追加し、オブジェクトの部分に対応する視覚パターンを特徴チャネルにエンコードするようにモデルを誘導します。識別表現をさらに掘り下げるために、適応チャネル グループ化 (ACG) 手法を適用して、空間的および意味的に関連する視覚パターンをクラスター化および重み付けし、視覚プリミティブのグループを生成します。プリミティブの識別可能性と転送可能性をさらに強化するために、プリミティブ間の豊富な構造情報と内部相関を学習するためのグラフ畳み込みネットワークに基づく視覚的プリミティブ相関推論ネットワーク(CRN)を提案します。最後に、エピソードトレーニング戦略に基づいて、メタタスクでの分類のためにプリミティブレベルのメトリクスが実行されます。広範な実験により、私たちの手法が 6 つの標準ベンチマークで最先端の結果を達成することが示されました。
Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to recognize novel classes with only a few labeled examples. Some recent work about FSL has yielded promising classification performance, where the image-level feature is used to calculate the similarity among samples for classification. However, the image-level feature ignores abundant fine-grained and structural in-formation of objects that may be transferable and consistent between seen and unseen classes. How can humans easily identify novel classes with several sam-ples? Some study from cognitive science argues that humans can recognize novel categories through primitives. Although base and novel categories are non-overlapping, they can share some primitives in common. Inspired by above re-search, we propose a Primitive Mining and Reasoning Network (PMRN) to learn primitive-aware representations based on metric-based FSL model. Concretely, we first add Self-supervision Jigsaw task (SSJ) for feature extractor parallelly, guiding the model to encode visual pattern corresponding to object parts into fea-ture channels. To further mine discriminative representations, an Adaptive Chan-nel Grouping (ACG) method is applied to cluster and weight spatially and se-mantically related visual patterns to generate a group of visual primitives. To fur-ther enhance the discriminability and transferability of primitives, we propose a visual primitive Correlation Reasoning Network (CRN) based on graph convolu-tional network to learn abundant structural information and internal correlation among primitives. Finally, a primitive-level metric is conducted for classification in a meta-task based on episodic training strategy. Extensive experiments show that our method achieves state-of-the-art results on six standard benchmarks.
updated: Wed Jun 14 2023 16:54:31 GMT+0000 (UTC)
published: Sat Aug 20 2022 16:22:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト