ビジュアルトラッキング用のテンプレートマッチング手法は、その優れたパフォーマンスと高速性により、最近人気を集めています。ただし、ターゲットオブジェクトの外観の変化に適応する効果的な方法が欠けているため、トラッキングの精度は依然として最先端の技術からはほど遠いものになっています。この論文では、追跡中にターゲットの外観の変化にテンプレートを適合させるための動的メモリネットワークを提案します。外部メモリの読み取りおよび書き込みプロセスは、検索機能マップを入力として使用するLSTMネットワークによって制御されます。ターゲットの位置が最初は不明であるため、潜在的なターゲットにLSTM入力を集中させるために、空間アテンションメカニズムが適用されます。積極的なモデルの適応性を防ぐため、ゲーテッド残差テンプレート学習を適用して、初期テンプレートとの結合に使用される取得メモリの量を制御します。ドリフトの問題を軽減するために、オブジェクトテンプレートからの誤った応答をキャンセルするために使用されるディストラクタのテンプレートを格納する「負の」メモリユニットも設計します。追跡パフォーマンスをさらに向上させるために、特徴抽出部分の後に補助分類損失が追加されます。オブジェクトの情報がニューラルネットワークの重みパラメーターによって維持される検出による追跡方法とは異なり、適応するには高価なオンライン微調整が必要ですが、トラッカーは完全にフィードフォワードで実行され、外部を更新することでターゲットの外観の変化に適応しますメモリ。さらに、このモデルの容量は、他のトラッカーの場合のようにネットワークサイズによって決定されません---容量は、タスクのメモリ要件の増加に応じて簡単に拡張できます。これは、長期のオブジェクト情報を記憶するのに適しています。 OTBおよびVOTデータセットに関する広範な実験により、リアルタイムの速度を維持しながら、トラッカーが最先端の追跡方法に対して有利に機能することが実証されています。
Template-matching methods for visual tracking have gained popularity recently due to their good performance and fast speed. However, they lack effective ways to adapt to changes in the target object's appearance, making their tracking accuracy still far from state-of-the-art. In this paper, we propose a dynamic memory network to adapt the template to the target's appearance variations during tracking. The reading and writing process of the external memory is controlled by an LSTM network with the search feature map as input. A spatial attention mechanism is applied to concentrate the LSTM input on the potential target as the location of the target is at first unknown. To prevent aggressive model adaptivity, we apply gated residual template learning to control the amount of retrieved memory that is used to combine with the initial template. In order to alleviate the drift problem, we also design a "negative" memory unit that stores templates for distractors, which are used to cancel out wrong responses from the object template. To further boost the tracking performance, an auxiliary classification loss is added after the feature extractor part. Unlike tracking-by-detection methods where the object's information is maintained by the weight parameters of neural networks, which requires expensive online fine-tuning to be adaptable, our tracker runs completely feed-forward and adapts to the target's appearance changes by updating the external memory. Moreover, the capacity of our model is not determined by the network size as with other trackers --- the capacity can be easily enlarged as the memory requirements of a task increase, which is favorable for memorizing long-term object information. Extensive experiments on the OTB and VOT datasets demonstrate that our trackers perform favorably against state-of-the-art tracking methods while retaining real-time speed.