arXiv reaDer
SpatialFormer: 少数ショット学習のためのセマンティックおよびターゲット認識型の注意
SpatialFormer: Semantic and Target Aware Attentions for Few-Shot Learning
最近の Few-Shot Learning (FSL) メソッドは、識別可能な埋め込み機能の生成に重点を置いて、サポート セットとクエリ セットの間の類似性を正確に測定します。現在の CNN ベースのクロスアテンション アプローチは、サポートとクエリのペアの相互にセマンティックな類似領域を強化することにより、識別表現を生成します。ただし、2 つの問題があります。CNN 構造がローカルの特徴に基づいて不正確なアテンション マップを生成することと、相互に類似した背景が気を散らす原因となります。これらの問題を軽減するために、新しい SpatialFormer 構造を設計して、グローバルな特徴に基づいてより正確な注意領域を生成します。 FSL の精度低下を引き起こす従来の Transformer モデリング固有のインスタンス レベルの類似性とは異なり、SpatialFormer はペア入力間のセマンティック レベルの類似性を調査してパフォーマンスを向上させます。次に、SpatialFormer Semantic Attention (SFSA) と SpatialFormer Target Attention (SFTA) という名前の 2 つの特定の注意モジュールを導出して、背景の気晴らしを減らしながらターゲット オブジェクト領域を強化します。特に、SFSA は、ペア機能間で同じ意味情報を持つ領域を強調表示し、SFTA は、基本カテゴリに類似した新しい機能の潜在的な前景オブジェクト領域を見つけます。広範な実験により、私たちの方法が効果的であり、少数ショット分類ベンチマークで新しい最先端の結果を達成することが示されています。
Recent Few-Shot Learning (FSL) methods put emphasis on generating a discriminative embedding features to precisely measure the similarity between support and query sets. Current CNN-based cross-attention approaches generate discriminative representations via enhancing the mutually semantic similar regions of support and query pairs. However, it suffers from two problems: CNN structure produces inaccurate attention map based on local features, and mutually similar backgrounds cause distraction. To alleviate these problems, we design a novel SpatialFormer structure to generate more accurate attention regions based on global features. Different from the traditional Transformer modeling intrinsic instance-level similarity which causes accuracy degradation in FSL, our SpatialFormer explores the semantic-level similarity between pair inputs to boost the performance. Then we derive two specific attention modules, named SpatialFormer Semantic Attention (SFSA) and SpatialFormer Target Attention (SFTA), to enhance the target object regions while reduce the background distraction. Particularly, SFSA highlights the regions with same semantic information between pair features, and SFTA finds potential foreground object regions of novel feature that are similar to base categories. Extensive experiments show that our methods are effective and achieve new state-of-the-art results on few-shot classification benchmarks.
updated: Wed Jul 17 2024 03:43:11 GMT+0000 (UTC)
published: Wed Mar 15 2023 08:31:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト