手作業で学習したCNNフィルターを浅いマルチスケールアーキテクチャ内で組み合わせた、キーポイント検出タスクの新しいアプローチを紹介します。手作りのフィルターは、学習されたフィルターにアンカー構造を提供し、繰り返し可能な機能をローカライズ、スコアリング、およびランク付けします。ネットワーク内でスケールスペース表現を使用して、さまざまなレベルでキーポイントを抽出します。損失関数を設計して、さまざまなスケールにわたって存在する堅牢な機能を検出し、再現性スコアを最大化します。 Key.Netモデルは、ImageNetから合成的に作成されたデータでトレーニングされ、HPatchesベンチマークで評価されます。結果は、我々のアプローチが再現性、マッチング性能、複雑さの点で最先端の検出器よりも優れていることを示しています。
We introduce a novel approach for keypoint detection task that combines handcrafted and learned CNN filters within a shallow multi-scale architecture. Handcrafted filters provide anchor structures for learned filters, which localize, score and rank repeatable features. Scale-space representation is used within the network to extract keypoints at different levels. We design a loss function to detect robust features that exist across a range of scales and to maximize the repeatability score. Our Key.Net model is trained on data synthetically created from ImageNet and evaluated on HPatches benchmark. Results show that our approach outperforms state-of-the-art detectors in terms of repeatability, matching performance and complexity.