オブジェクト検出の現在の進歩は、優れたパフォーマンスを得るために大規模なデータセットに依存しています。ただし、多くのシナリオでは常に十分なサンプルがあるとは限らないため、少数ショット検出とその極端な変動のワンショット検出の研究につながります。この論文では、ワンショット検出は条件付き確率問題として定式化されています。この洞察により、比較ネットワーク(ComparisonNet)と呼ばれる新しいワンショット条件付きオブジェクト検出(OSCD)フレームワークが提案されました。具体的には、クエリおよびターゲットイメージの特徴は、周辺確率のマッピングされたメトリックとしてシャムネットワークを通じて抽出されます。 OSCDの2ステージ検出器が導入され、抽出されたクエリとターゲット機能を学習可能なメトリックと比較して、最適化された非線形条件付き確率にアプローチします。いったんトレーニングが完了すると、ComparitionNetは、さらにトレーニングを行うことなく、見ているクラスと見えないクラスの両方のオブジェクトを検出できます。実験により、提案されたアプローチは、Fashion-MNISTおよびPASCAL VOCの提案されたデータセットで最先端のパフォーマンスを達成することが示されています。
The current advances in object detection depend on large-scale datasets to get good performance. However, there may not always be sufficient samples in many scenarios, which leads to the research on few-shot detection as well as its extreme variation one-shot detection. In this paper, the one-shot detection has been formulated as a conditional probability problem. With this insight, a novel one-shot conditional object detection (OSCD) framework, referred as Comparison Network (ComparisonNet), has been proposed. Specifically, query and target image features are extracted through a Siamese network as mapped metrics of marginal probabilities. A two-stage detector for OSCD is introduced to compare the extracted query and target features with the learnable metric to approach the optimized non-linear conditional probability. Once trained, ComparisonNet can detect objects of both seen and unseen classes without further training, which also has the advantages including class-agnostic, training-free for unseen classes, and without catastrophic forgetting. Experiments show that the proposed approach achieves state-of-the-art performance on the proposed datasets of Fashion-MNIST and PASCAL VOC.