非剛体画像対応のタスクの正しい一致の数を最大化するように設計された、新しい学習キーポイント検出方法を提示します。私たちのトレーニング フレームワークは、畳み込みニューラル ネットワーク (CNN) をトレーニングするためのグラウンド トゥルースとして、注釈付きの画像ペアを事前定義された記述子抽出器と照合することによって得られる真の対応を使用します。既知の幾何学的変換を監視信号として画像に適用することにより、モデル アーキテクチャを最適化します。実験によると、私たちの方法は、平均マッチング精度で非剛体の実画像の最先端のキーポイント検出器よりも 20 pp 優れており、検出方法と組み合わせると、いくつかの記述子のマッチング パフォーマンスも向上します。また、提案された方法を、挑戦的な実世界のアプリケーションの 1 つであるオブジェクト検索にも採用します。ここでは、検出器は、利用可能な最高のキーポイント検出器と同等のパフォーマンスを示します。ソースコードとトレーニング済みモデルは、https://github.com/verlab/LearningToDetect SIBGRAPI 2022 で公開されています。
We present a novel learned keypoint detection method designed to maximize the number of correct matches for the task of non-rigid image correspondence. Our training framework uses true correspondences, obtained by matching annotated image pairs with a predefined descriptor extractor, as a ground-truth to train a convolutional neural network (CNN). We optimize the model architecture by applying known geometric transformations to images as the supervisory signal. Experiments show that our method outperforms the state-of-the-art keypoint detector on real images of non-rigid objects by 20 p.p. on Mean Matching Accuracy and also improves the matching performance of several descriptors when coupled with our detection method. We also employ the proposed method in one challenging realworld application: object retrieval, where our detector exhibits performance on par with the best available keypoint detectors. The source code and trained model are publicly available at https://github.com/verlab/LearningToDetect SIBGRAPI 2022