特徴検出器と記述子は、ビデオオブジェクトの追跡やコンテンツベースの画像検索など、さまざまなコンピュータービジョンタスクに使用されています。多くの方法では、検出記述パイプラインのさまざまな段階で画像勾配を使用して、ローカル画像構造を記述します。最近、パフォーマンスを向上させるために、これらのステージの一部またはすべてが畳み込みニューラルネットワーク(CNN)に置き換えられました。検出器は選択の問題として定義されるため、CNNとして実装するのがより困難になります。したがって、それらは一般にリグレッサとして定義され、入力画像をスコアマップに変換し、キーポイントは非最大抑制で選択できます。このペーパーでは、キーポイント検出にCNNを使用する最近のいくつかの方法について説明し、比較します。実験は、CNNベースのアプローチと従来の方法の選択の両方で実行されます。キーポイントと記述子で定義された定性的尺度に加えて、メソッドの実際の実行方法を決定するために、バッグオブワード(BoW)モデルを使用して画像検索アプリケーションを実装します。結果は、各タイプの機能が異なるコンテキストで最適であることを示しています。
Feature detectors and descriptors have been successfully used for various computer vision tasks, such as video object tracking and content-based image retrieval. Many methods use image gradients in different stages of the detection-description pipeline to describe local image structures. Recently, some, or all, of these stages have been replaced by convolutional neural networks (CNNs), in order to increase their performance. A detector is defined as a selection problem, which makes it more challenging to implement as a CNN. They are therefore generally defined as regressors, converting input images to score maps and keypoints can be selected with non-maximum suppression. This paper discusses and compares several recent methods that use CNNs for keypoint detection. Experiments are performed both on the CNN based approaches, as well as a selection of conventional methods. In addition to qualitative measures defined on keypoints and descriptors, the bag-of-words (BoW) model is used to implement an image retrieval application, in order to determine how the methods perform in practice. The results show that each type of features are best in different contexts.