テンプレートマッチングに基づく完全に畳み込みのシャムネットワークは、視覚的な追跡に大きな可能性を示しています。テスト中、テンプレートは最初のターゲット機能で修正され、パフォーマンスはシャムネットワークの一般的なマッチング機能に完全に依存します。ただし、この方法では、ターゲットの時間的変動や背景の乱雑さをキャプチャできません。この作業では、勾配の識別情報を活用し、フィードフォワードおよびバックワード操作によってシャムネットワークのテンプレートを更新するための、新規の勾配誘導ネットワークを提案します。このアルゴリズムは、フィードフォワードおよびバックワードの操作を実行して、勾配の識別情報を活用し、ターゲットの中心的な注意を獲得します。具体的には、アルゴリズムは勾配からの情報を利用して、現在のフレームのテンプレートを更新できます。さらに、勾配情報をより適切に使用し、過剰適合を回避するためのテンプレート一般化トレーニング方法が提案されています。私たちの知る限り、この作業は、シャムベースのトラッカーのテンプレート更新のために勾配の情報を活用する最初の試みです。最近のベンチマークでの広範な実験により、この方法が他の最先端のトラッカーよりも優れたパフォーマンスを達成することが実証されています。
The fully-convolutional siamese network based on template matching has shown great potentials in visual tracking. During testing, the template is fixed with the initial target feature and the performance totally relies on the general matching ability of the siamese network. However, this manner cannot capture the temporal variations of targets or background clutter. In this work, we propose a novel gradient-guided network to exploit the discriminative information in gradients and update the template in the siamese network through feed-forward and backward operations. Our algorithm performs feed-forward and backward operations to exploit the discriminative informaiton in gradients and capture the core attention of the target. To be specific, the algorithm can utilize the information from the gradient to update the template in the current frame. In addition, a template generalization training method is proposed to better use gradient information and avoid overfitting. To our knowledge, this work is the first attempt to exploit the information in the gradient for template update in siamese-based trackers. Extensive experiments on recent benchmarks demonstrate that our method achieves better performance than other state-of-the-art trackers.