ワンショットオブジェクト検出は、特定の1つのインスタンスだけに従って新しいオブジェクトを検出することを目的としています。データが極端に不足している現在のアプローチでは、さまざまな機能の融合を検討して、直接転送可能なメタ知識を取得しています。それでも、彼らのパフォーマンスはしばしば不十分です。この論文では、これを、空間構造とスケール分散を見落とすことによってクエリサポートセマンティクスを不整合にする不適切な相関方法に起因すると考えています。分析の結果、アテンションメカニズムを活用し、これらの問題を解決するために、Semantic-aligned Fusion Transformer(SaFT)という名前のシンプルで効果的なアーキテクチャを提案します。具体的には、SaFTに、クロススケールセマンティックエンハンスメント用の垂直フュージョンモジュール(VFM)と、クロスサンプル機能フュージョン用の水平フュージョンモジュール(HFM)を装備しています。これらを組み合わせることで、各機能ポイントのビジョンがサポートからクエリからの拡張機能ピラミッド全体に広がり、セマンティックに沿った関連付けが容易になります。複数のベンチマークでの広範な実験は、私たちのフレームワークの優位性を示しています。新しいクラスを微調整することなく、1段階のベースラインに大幅なパフォーマンスの向上をもたらし、最先端の結果をより高いレベルに引き上げます。
One-shot object detection aims at detecting novel objects according to merely one given instance. With extreme data scarcity, current approaches explore various feature fusions to obtain directly transferable meta-knowledge. Yet, their performances are often unsatisfactory. In this paper, we attribute this to inappropriate correlation methods that misalign query-support semantics by overlooking spatial structures and scale variances. Upon analysis, we leverage the attention mechanism and propose a simple but effective architecture named Semantic-aligned Fusion Transformer (SaFT) to resolve these issues. Specifically, we equip SaFT with a vertical fusion module (VFM) for cross-scale semantic enhancement and a horizontal fusion module (HFM) for cross-sample feature fusion. Together, they broaden the vision for each feature point from the support to a whole augmented feature pyramid from the query, facilitating semantic-aligned associations. Extensive experiments on multiple benchmarks demonstrate the superiority of our framework. Without fine-tuning on novel classes, it brings significant performance gains to one-stage baselines, lifting state-of-the-art results to a higher level.