検索画像でテンプレートを見つけることは、多くのコンピュータービジョンアプリケーションの根底にある重要なタスクです。最近のアプローチでは、畳み込みニューラルネットワーク(CNN)によって生成された深い特徴空間でテンプレートマッチングを実行します。これにより、外観の変化に対する耐性が高まります。この記事では、CNNの形状情報のエンコーディングを強化することで、テンプレートマッチングのパフォーマンスを向上させるより識別可能な機能を生成できるかどうかを調査します。この調査の結果、標準ベンチマークで最先端の結果を生成する新しいテンプレートマッチング方法が得られました。これらの結果を確認するために、新しいベンチマークも作成し、提案された方法がこの新しいデータセットの既存の手法よりも優れていることを示します。さらに、提案された方法を追跡に適用し、より堅牢な結果を達成しました。
Finding a template in a search image is an important task underlying many computer vision applications. Recent approaches perform template matching in a deep feature space, produced by a convolutional neural network (CNN), which is found to provide more tolerance to changes in appearance. In this article we investigate if enhancing the CNN's encoding of shape information can produce more distinguishable features that improve the performance of template matching. This investigation results in a new template matching method that produces state-of-the-art results on a standard benchmark. To confirm these results we also create a new benchmark and show that the proposed method also outperforms existing techniques on this new dataset. We further applied the proposed method to tracking and achieved more robust results.