arXiv reaDer
数ショットの画像認識のためのマルチレベルメトリック学習
Multi-level Metric Learning for Few-shot Image Recognition
少数のサンプルでモデルをトレーニングすることに専念するショット学習はほとんどありません。最近、ローカル記述子メトリック学習に基づく方法が優れたパフォーマンスを達成しました。これらのアプローチのほとんどは、ピクセルレベルのメトリックに基づいてモデルを学習します。しかし、そのような作品は、それらの間の関係を単一のレベルでしか測定することができず、包括的で効果的ではありません。クエリ画像を3つの異なるレベルの類似性メトリックを介して同時に適切に分類できる場合、クラス内のクエリ画像をより小さな特徴空間にさらに密に分散させ、より識別力のある特徴マップを生成できると主張します。これを動機として、ピクセルレベルの類似性を計算するだけでなく、パーツレベルの特徴の類似性と分布の類似性も考慮する、数ショット学習のための新しいマルチレベルメトリック学習(MML)メソッドを提案します。まず、特徴抽出器を使用して画像の特徴マップを取得します。次に、マルチレベルのメトリックモジュールを提案して、パーツレベル、ピクセルレベル、および分布レベルの類似性を同時に計算します。具体的には、分布レベルの類似性メトリックは、クエリ画像とサポートセット間の分布距離(つまり、ワッサースタイン距離、カルバックライブラー発散)、ピクセルレベルを計算し、パーツレベルメトリックはピクセルレベルとパーツレベルを計算します。それぞれレベルの類似性。最後に、融合層は3種類の関係スコアを融合して、最終的な類似性スコアを取得します。人気のあるベンチマークでの広範な実験は、MMLメソッドが現在の最先端のメソッドを大幅に上回っていることを示しています。
Few-shot learning is devoted to training a model on few samples. Recently, the method based on local descriptor metric-learning has achieved great performance. Most of these approaches learn a model based on a pixel-level metric. However, such works can only measure the relations between them on a single level, which is not comprehensive and effective. We argue that if query images can simultaneously be well classified via three distinct level similarity metrics, the query images within a class can be more tightly distributed in a smaller feature space, generating more discriminative feature maps. Motivated by this, we propose a novel Multi-level Metric Learning (MML) method for few-shot learning, which not only calculates the pixel-level similarity but also considers the similarity of part-level features and the similarity of distributions. First, we use a feature extractor to get the feature maps of images. Second, a multi-level metric module is proposed to calculate the part-level, pixel-level, and distribution-level similarities simultaneously. Specifically, the distribution-level similarity metric calculates the distribution distance (i.e., Wasserstein distance, Kullback-Leibler divergence) between query images and the support set, the pixel-level, and the part-level metric calculates the pixel-level and part-level similarities respectively. Finally, the fusion layer fuses three kinds of relation scores to obtain the final similarity score. Extensive experiments on popular benchmarks demonstrate that the MML method significantly outperforms the current state-of-the-art methods.
updated: Sun Mar 21 2021 12:49:07 GMT+0000 (UTC)
published: Sun Mar 21 2021 12:49:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト