arXiv reaDer
少数ショット学習およびきめ細かい少数ショット学習のための弱教師ありオブジェクトのローカリゼーション
Weakly-supervised Object Localization for Few-shot Learning and Fine-grained Few-shot Learning
少数ショット学習(FSL)は、非常に少数のサンプルから新しい視覚カテゴリを学習することを目的としています。これは、実際のアプリケーションでは難しい問題です。数ショット分類の多くの方法は、グローバルな表現を学習するために一般的な画像でうまく機能します。ただし、微妙なローカル情報が不足しているため、きめ細かいカテゴリを同時にうまく処理することはできません。ローカリゼーションは、識別領域を直接提供するため、効率的なアプローチであると主張します。これは、低データ体制での一般的な分類ときめ細かい分類の両方にとって重要です。この論文では、弱教師ありオブジェクトのローカリゼーションを実現するための自己注意ベースの補完モジュール(SACモジュール)を提案し、さらに重要なことに、少数ショット分類のための識別可能な深い記述子を選択するためのアクティブ化されたマスクを生成します。選択された各ディープ記述子に基づいて、セマンティックアラインメントモジュール(SAM)は、クエリとサポートイメージ間のセマンティックアラインメント距離を計算して、分類パフォーマンスを向上させます。広範な実験により、さまざまな設定でのベンチマークデータセット、特にきめ細かい数ショットのタスクで、私たちの方法が最先端の方法よりも優れていることが示されています。さらに、私たちの方法は、miniImageNetでモデルをトレーニングし、さまざまなデータセットでモデルを評価するときに、以前の方法よりも優れたパフォーマンスを実現し、その優れた一般化能力を示しています。追加の視覚化は、提案された方法が主要なオブジェクトをより多くの間隔でローカライズできることを示しています。
Few-shot learning (FSL) aims to learn novel visual categories from very few samples, which is a challenging problem in real-world applications. Many methods of few-shot classification work well on general images to learn global representation. However, they can not deal with fine-grained categories well at the same time due to a lack of subtle and local information. We argue that localization is an efficient approach because it directly provides the discriminative regions, which is critical for both general classification and fine-grained classification in a low data regime. In this paper, we propose a Self-Attention Based Complementary Module (SAC Module) to fulfill the weakly-supervised object localization, and more importantly produce the activated masks for selecting discriminative deep descriptors for few-shot classification. Based on each selected deep descriptor, Semantic Alignment Module (SAM) calculates the semantic alignment distance between the query and support images to boost classification performance. Extensive experiments show our method outperforms the state-of-the-art methods on benchmark datasets under various settings, especially on the fine-grained few-shot tasks. Besides, our method achieves superior performance over previous methods when training the model on miniImageNet and evaluating it on the different datasets, demonstrating its superior generalization capacity. Extra visualization shows the proposed method can localize the key objects more interval.
updated: Sat Dec 12 2020 02:50:57 GMT+0000 (UTC)
published: Mon Mar 02 2020 14:07:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト