arXiv reaDer
MHFC:少数のショット学習のためのマルチヘッド機能コラボレーション
MHFC: Multi-Head Feature Collaboration for Few-Shot Learning
少数ショット学習(FSL)は、データ不足の問題に対処することを目的としています。標準のFSLフレームワークは、次の2つのコンポーネントで構成されています。(1)事前トレーニング。基本データを使用して、CNNベースの特徴抽出モデル(FEM)を生成します。 (2)メタテスト。訓練されたFEMを適用して、新しいデータの特徴を取得し、それらを認識します。 FSLは、FEMの設計に大きく依存しています。ただし、さまざまなFEMには明確な強調があります。たとえば、輪郭情報にもっと注意を向ける人もいれば、テクスチャ情報に特に重点を置く人もいます。シングルヘッド機能は、サンプルの片側表現にすぎません。クロスドメインの悪影響に加えて(たとえば、トレーニングされたFEMは新しいクラスに完璧に適応できない)、新しいデータの分布は、分布シフトと呼ばれるグラウンドトゥルース分布と比較してある程度の偏差がある可能性があります。 -問題(DSP)。 DSPに対処するために、マルチヘッド機能コラボレーション(MHFC)アルゴリズムを提案します。これは、マルチヘッド機能(たとえば、さまざまなFEMから抽出された複数の機能)を統合された空間に投影し、それらを融合してより識別力のある情報をキャプチャしようとします。 。通常、最初に、多重頭部特徴を整列した低次元表現に変換する部分空間学習法を導入します。より強力な識別で機能を学習することでDSPを修正し、さまざまな頭部機能からの一貫性のない測定スケールの問題を克服します。次に、各頭の特徴の組み合わせの重みを自動的に更新するアテンションブロックを設計します。さまざまな視点の貢献を包括的に考慮し、特徴の識別をさらに改善します。 5つのベンチマークデータセット(クロスドメイン実験を含む)で提案された方法を評価し、最先端技術と比較して2.1%〜7.8%の大幅な改善を達成します。
Few-shot learning (FSL) aims to address the data-scarce problem. A standard FSL framework is composed of two components: (1) Pre-train. Employ the base data to generate a CNN-based feature extraction model (FEM). (2) Meta-test. Apply the trained FEM to acquire the novel data's features and recognize them. FSL relies heavily on the design of the FEM. However, various FEMs have distinct emphases. For example, several may focus more attention on the contour information, whereas others may lay particular emphasis on the texture information. The single-head feature is only a one-sided representation of the sample. Besides the negative influence of cross-domain (e.g., the trained FEM can not adapt to the novel class flawlessly), the distribution of novel data may have a certain degree of deviation compared with the ground truth distribution, which is dubbed as distribution-shift-problem (DSP). To address the DSP, we propose Multi-Head Feature Collaboration (MHFC) algorithm, which attempts to project the multi-head features (e.g., multiple features extracted from a variety of FEMs) to a unified space and fuse them to capture more discriminative information. Typically, first, we introduce a subspace learning method to transform the multi-head features to aligned low-dimensional representations. It corrects the DSP via learning the feature with more powerful discrimination and overcomes the problem of inconsistent measurement scales from different head features. Then, we design an attention block to update combination weights for each head feature automatically. It comprehensively considers the contribution of various perspectives and further improves the discrimination of features. We evaluate the proposed method on five benchmark datasets (including cross-domain experiments) and achieve significant improvements of 2.1%-7.8% compared with state-of-the-arts.
updated: Sun Oct 10 2021 19:35:19 GMT+0000 (UTC)
published: Thu Sep 16 2021 08:09:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト