少数ショットオブジェクト検出(FSOD)は、いくつかの例のみを使用してオブジェクトを検出することを目的としています。最先端のオブジェクト検出器を数ショットの領域に適応させる方法は、依然として困難です。オブジェクトの提案は、最新のオブジェクト検出器の重要な要素です。ただし、既存のメソッドを使用して少数ショットクラスに対して生成された提案の品質は、多くのショットクラスの品質よりもはるかに劣ります。たとえば、誤分類または実際のオブジェクトに対する不正確な空間位置のために少数ショットクラスのボックスが欠落しています。ノイズの多い提案の問題に対処するために、数ショットの提案の生成ときめ細かい数ショットの提案の分類を共同で最適化することにより、新しいメタ学習ベースのFSODモデルを提案します。数ショットクラスの提案生成を改善するために、RPNで使用される従来の単純な線形オブジェクト/非オブジェクト分類器の代わりに、軽量のメトリック学習ベースのプロトタイプマッチングネットワークを学習することを提案します。特徴融合ネットワークを備えた非線形分類器は、識別可能なプロトタイプのマッチングと少数ショットクラスの提案想起を改善する可能性があります。きめ細かい数ショットの提案分類を改善するために、ノイズの多い提案と数ショットのクラスの間の空間的な不整合に対処するための新しい注意深い特徴の位置合わせ方法を提案し、それによって数ショットのオブジェクト検出のパフォーマンスを向上させます。一方、メニーショットの基本クラス用に別のFaster R-CNN検出ヘッドを学習し、基本クラスの知識を維持する強力なパフォーマンスを示します。私たちのモデルは、ほとんどのショットとメトリックで、複数のFSODベンチマークで最先端のパフォーマンスを実現します。
Few-shot object detection (FSOD) aims to detect objects using only a few examples. How to adapt state-of-the-art object detectors to the few-shot domain remains challenging. Object proposal is a key ingredient in modern object detectors. However, the quality of proposals generated for few-shot classes using existing methods is far worse than that of many-shot classes, e.g., missing boxes for few-shot classes due to misclassification or inaccurate spatial locations with respect to true objects. To address the noisy proposal problem, we propose a novel meta-learning based FSOD model by jointly optimizing the few-shot proposal generation and fine-grained few-shot proposal classification. To improve proposal generation for few-shot classes, we propose to learn a lightweight metric-learning based prototype matching network, instead of the conventional simple linear object/nonobject classifier, e.g., used in RPN. Our non-linear classifier with the feature fusion network could improve the discriminative prototype matching and the proposal recall for few-shot classes. To improve the fine-grained few-shot proposal classification, we propose a novel attentive feature alignment method to address the spatial misalignment between the noisy proposals and few-shot classes, thus improving the performance of few-shot object detection. Meanwhile we learn a separate Faster R-CNN detection head for many-shot base classes and show strong performance of maintaining base-classes knowledge. Our model achieves state-of-the-art performance on multiple FSOD benchmarks over most of the shots and metrics.