少数のオブジェクト検出 (FSOD) は、目に見えないタスクに適応できる一般的な検出器を学習することを目的としており、トレーニング サンプルが少ないため、最近一貫した改善が見られます。ただし、ほとんどの既存の方法は、効率の問題、たとえば、計算の複雑さが高く、適応速度が遅いことを無視しています。特に、組み込み AI への新たな傾向により、効率は、少数ショット技術のますます重要な評価指標になっています。この目的のために、以前の最先端の (SOTA) メソッドと同等の結果を達成する、計算上のインクリメントのない効率的な pretrain-transfer フレームワーク (PTF) ベースラインを提示します。このベースラインに基づいて、知識継承 (KI) という名前の初期化子を考案して、ボックス分類子の新しい重みを確実に初期化します。これにより、知識の伝達プロセスが効果的に促進され、適応速度が向上します。 KI イニシャライザー内で、予測された新しい重みと事前トレーニングされた基本重みの間のベクトル長の不一致を軽減するための適応長再スケーリング (ALR) 戦略を提案します。最後に、私たちのアプローチは、PASCAL VOC、COCO、および LVIS の 3 つの公開ベンチマークで SOTA の結果を達成するだけでなく、少数ショット転送中に COCO/LVIS ベンチマークの他の方法に対して 1.8 ~ 100 倍の適応速度で高い効率を示します。 .私たちの知る限り、これは FSOD の効率性の問題を考慮した最初の研究です。私たちは、パワフルでありながら効率的な数ショット技術の開発へのトレンドを刺激したいと考えています.コードは、https://github.com/Ze-Yang/Efficient-FSOD で公開されています。
Few-shot object detection (FSOD), which aims at learning a generic detector that can adapt to unseen tasks with scarce training samples, has witnessed consistent improvement recently. However, most existing methods ignore the efficiency issues, e.g., high computational complexity and slow adaptation speed. Notably, efficiency has become an increasingly important evaluation metric for few-shot techniques due to an emerging trend toward embedded AI. To this end, we present an efficient pretrain-transfer framework (PTF) baseline with no computational increment, which achieves comparable results with previous state-of-the-art (SOTA) methods. Upon this baseline, we devise an initializer named knowledge inheritance (KI) to reliably initialize the novel weights for the box classifier, which effectively facilitates the knowledge transfer process and boosts the adaptation speed. Within the KI initializer, we propose an adaptive length re-scaling (ALR) strategy to alleviate the vector length inconsistency between the predicted novel weights and the pretrained base weights. Finally, our approach not only achieves the SOTA results across three public benchmarks, i.e., PASCAL VOC, COCO and LVIS, but also exhibits high efficiency with 1.8-100x faster adaptation speed against the other methods on COCO/LVIS benchmark during few-shot transfer. To our best knowledge, this is the first work to consider the efficiency problem in FSOD. We hope to motivate a trend toward powerful yet efficient few-shot technique development. The codes are publicly available at https://github.com/Ze-Yang/Efficient-FSOD.