arXiv reaDer
メタ戦略と明示的なローカリゼーション推論によるインスタント応答の数ショットのオブジェクト検出
Instant Response Few-shot Object Detection with Meta Strategy and Explicit Localization Inference
いくつかの参照サンプルによって新しいカテゴリのオブジェクトを認識してローカライズすることを目的とした、数ショットのオブジェクト検出(FSOD)は非常に困難な作業です。以前の作業は、モデルを新しいカテゴリに転送するための微調整プロセスに依存することが多く、微調整の欠陥を考慮することはめったになく、多くのアプリケーションの欠点が生じます。たとえば、これらの方法は、微調整時間が長すぎるため、エピソードが変更可能なシナリオでは満足のいくものではなく、低品質(たとえば、ローショットやクラスが不完全)のサポートセットでのパフォーマンスが大幅に低下します。この目的のために、この論文は、微調整プロセスなしで新しいカテゴリーのオブジェクトを正確かつ直接検出することができるインスタント応答数ショットオブジェクト検出器(IR-FSOD)を提案します。目的を達成するために、FSOD設定の下でFaster R-CNNフレームワークの個々のモジュールの欠陥を注意深く分析し、これらの欠陥を改善することによってIR-FSODに拡張します。具体的には、最初に、ボックス分類器とRPNモジュールの2つのシンプルで効果的なメタ戦略を提案し、即時応答で新しいカテゴリのオブジェクト検出を可能にします。次に、ローカリゼーションモジュールに2つの明示的な推論を導入して、明示的なローカリゼーションスコアと半明示的なボックス回帰を含む、基本カテゴリへの過剰適合を軽減します。広範な実験により、IR-FSODフレームワークは、瞬時の応答で数ショットのオブジェクト検出を実現するだけでなく、さまざまなFSOD設定で最新の精度と再現率のパフォーマンスを実現することが示されています。
Aiming at recognizing and localizing the object of novel categories by a few reference samples, few-shot object detection (FSOD) is a quite challenging task. Previous works often depend on the fine-tuning process to transfer their model to the novel category and rarely consider the defect of fine-tuning, resulting in many application drawbacks. For example, these methods are far from satisfying in the episode-changeable scenarios due to excessive fine-tuning times, and their performance on low-quality (e.g., low-shot and class-incomplete) support sets degrades severely. To this end, this paper proposes an instant response few-shot object detector (IR-FSOD) that can accurately and directly detect the objects of novel categories without the fine-tuning process. To accomplish the objective, we carefully analyze the defects of individual modules in the Faster R-CNN framework under the FSOD setting and then extend it to IR-FSOD by improving these defects. Specifically, we first propose two simple but effective meta-strategies for the box classifier and RPN module to enable the object detection of novel categories with instant response. Then, we introduce two explicit inferences into the localization module to alleviate its over-fitting to the base categories, including explicit localization score and semi-explicit box regression. Extensive experiments show that the IR-FSOD framework not only achieves few-shot object detection with the instant response but also reaches state-of-the-art performance in precision and recall under various FSOD settings.
updated: Thu May 12 2022 08:19:29 GMT+0000 (UTC)
published: Tue Oct 26 2021 03:09:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト