最近、Deep Neural Network(DNN)ベースのビジュアルトラッキングソリューションの急速な開発が見られました。一部のトラッカーは、DNNベースのソリューションを識別相関フィルター(DCF)と組み合わせて、セマンティック機能を抽出し、最先端の追跡精度を実現します。ただし、これらのソリューションは非常に計算集約的であり、長い処理時間を必要とするため、セキュリティで保護されていないリアルタイムパフォーマンスが発生します。高精度と信頼性の高いリアルタイムパフォーマンスの両方を提供するために、SiamVGGと呼ばれる新しいトラッカーを提案します。畳み込みニューラルネットワーク(CNN)バックボーンと相互相関演算子を組み合わせ、模範的な画像の特徴を利用して、より正確なオブジェクト追跡を実現します。 SiamVGGのアーキテクチャは、VGG-16からカスタマイズされており、パラメータは模範的な画像と目的の入力ビデオフレームの両方で共有されます。 GTX1080Tiで実行される50FPSの適切なリアルタイムパフォーマンスを維持しながら、OTB-2013/50/100およびVOT2015/2016/2017データセットで提案されたSiamVGGを最先端の精度で示します。私たちの設計は、VOT2017チャレンジのECOおよびC-COTと比較して2%高い期待平均オーバーラップ(EAO)を達成できます。
Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16, with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.