Dual-Awareness Attention for Few-Shot Object Detection
最近の進歩により、数ショット分類(FSC)のパフォーマンスが大幅に向上しましたが、最新の学習システムでは、数ショットオブジェクト検出(FSOD)が依然として困難です。既存のFSODシステムはFSCアプローチに従い、クラス表現の空間的な不整合とあいまいさの問題を無視するため、パフォーマンスが低下します。これを観察して、クエリ位置認識(QPA)サポート機能を適応的に生成し、検出ネットワークを正確にガイドできる新しいデュアル認識注意(DAnA)メカニズムを提案します。生成されたQPA機能は、クエリの特定の領域を条件とするサポート画像のローカル情報を表します。異なる画像間の空間的関係を考慮に入れることにより、私たちのアプローチは、以前のFSODメソッド(比較的+6.9 AP)を著しく上回り、困難なクロスデータセット評価設定の下でも顕著な結果を達成します。さらに、提案されたDAnAコンポーネントは柔軟性があり、複数の既存のオブジェクト検出フレームワークに適応できます。 DAnAを装備することにより、従来のオブジェクト検出モデルであるFaster R-CNNとRetinaNetは、数ショットの学習用に明示的に設計されていないため、FSODタスクで最先端のパフォーマンスを実現します。
While recent progress has significantly boosted few-shot classification (FSC) performance, few-shot object detection (FSOD) remains challenging for modern learning systems. Existing FSOD systems follow FSC approaches, ignoring the issues of spatial misalignment and vagueness in class representations, and consequently result in low performance. Observing this, we propose a novel Dual-Awareness Attention (DAnA) mechanism that can adaptively generate query-position-aware (QPA) support features and guide the detection networks precisely. The generated QPA features represent local information of a support image conditioned on a given region of the query. By taking the spatial relationships across different images into consideration, our approach conspicuously outperforms previous FSOD methods (+6.9 AP relatively) and achieves remarkable results even under a challenging cross-dataset evaluation setting. Furthermore, the proposed DAnA component is flexible and adaptable to multiple existing object detection frameworks. By equipping DAnA, conventional object detection models, Faster R-CNN and RetinaNet, which are not designed explicitly for few-shot learning, reach state-of-the-art performance in FSOD tasks.
updated: Fri Jul 09 2021 08:40:00 GMT+0000 (UTC)
published: Wed Feb 24 2021 09:17:27 GMT+0000 (UTC)
