少数ショット オブジェクト検出 (FSOD) は、新しいカテゴリのいくつかの画像を分類して検出することを目的としています。既存のメタ学習方法は、構造上の制限により、サポート イメージとクエリ イメージの間の機能を十分に活用できません。クエリを十分に活用し、画像をサポートするために、順次大きな受容野を持つ階層的注意ネットワークを提案します。また、メタ学習はサポート画像とクエリ画像が一致するかどうかを判断するため、カテゴリをうまく区別できません。つまり、分類のためのメトリックベースの学習は、直接的には機能しないため効果がありません。したがって、メタコントラスト学習と呼ばれるコントラスト学習方法を提案します。これは、メタ学習戦略の目的を達成するのに直接役立ちます。最後に、大幅なマージンを実現することにより、新しい最先端のネットワークを確立します。私たちの方法は、COCO データセットでの 1 ~ 30 ショットのオブジェクト検出で 2.3、1.0、1.3、3.4、および 2.4% の AP 改善をもたらします。コードは https://github.com/infinity7428/hANMCL で入手できます。
Few-shot object detection (FSOD) aims to classify and detect few images of novel categories. Existing meta-learning methods insufficiently exploit features between support and query images owing to structural limitations. We propose a hierarchical attention network with sequentially large receptive fields to fully exploit the query and support images. In addition, meta-learning does not distinguish the categories well because it determines whether the support and query images match. In other words, metric-based learning for classification is ineffective because it does not work directly. Thus, we propose a contrastive learning method called meta-contrastive learning, which directly helps achieve the purpose of the meta-learning strategy. Finally, we establish a new state-of-the-art network, by realizing significant margins. Our method brings 2.3, 1.0, 1.3, 3.4 and 2.4% AP improvements for 1-30 shots object detection on COCO dataset. Our code is available at: https://github.com/infinity7428/hANMCL