畳み込みニューラルネットワーク(CNN)ベースの追跡アプローチは、最近のベンチマークで良好なパフォーマンスを示しています。それにもかかわらず、選択されたCNN機能は異なるタスクで常に事前にトレーニングされ、追跡システムの個々のコンポーネントは個別に学習されるため、達成される追跡パフォーマンスは最適ではない場合があります。さらに、これらのトラッカーのほとんどは、時間のかかる特徴抽出と複雑な最適化の詳細のために、リアルタイムアプリケーション向けに設計されていません。この論文では、畳み込みの特徴を学習し、追跡プロセスを同時に実行するためのエンドツーエンドのフレームワーク、つまり統合畳み込みトラッカー(UCT)を提案します。具体的には、UCTは特徴抽出と追跡プロセスを畳み込み演算として扱い、それらを共同でトレーニングします。これにより、学習したCNN特徴を追跡プロセスと密接に結合できます。オンライントラッキング中に、ピーク対ノイズ比(PNR)基準を導入することにより効率的なモデル更新方法が提案され、スケール分岐をネットワークに組み込むことによりスケール変更が効率的に処理されます。実験は、OTB2013、OTB2015、VOT2015、VOT2016の4つの困難な追跡データセットで実行されます。私たちの方法は、リアルタイムの速度を超えて維持しながら、これらのベンチマークで最高のパフォーマンスを達成します。
Convolutional neural networks (CNN) based tracking approaches have shown favorable performance in recent benchmarks. Nonetheless, the chosen CNN features are always pre-trained in different tasks and individual components in tracking systems are learned separately, thus the achieved tracking performance may be suboptimal. Besides, most of these trackers are not designed towards real-time applications because of their time-consuming feature extraction and complex optimization details. In this paper, we propose an end-to-end framework to learn the convolutional features and perform the tracking process simultaneously, namely, a unified convolutional tracker (UCT). Specifically, the UCT treats feature extractor and tracking process both as convolution operation and trains them jointly, which enables learned CNN features are tightly coupled with tracking process. During online tracking, an efficient model updating method is proposed by introducing peak-versus-noise ratio (PNR) criterion, and scale changes are handled efficiently by incorporating a scale branch into network. Experiments are performed on four challenging tracking datasets: OTB2013, OTB2015, VOT2015 and VOT2016. Our method achieves leading performance on these benchmarks while maintaining beyond real-time speed.