テンプレートベースの識別トラッカーは、その堅牢性と精度のために現在主流の追跡方法であり、テンプレートから抽出された特徴と検索画像の間の相互相関操作に依存するシャムネットワークベースの方法は、最先端を示していますパフォーマンスの追跡。ただし、一般的な相互相関操作では、2つのフィーチャマップ内のローカルパッチ間の関係しか取得できません。この論文では、グローバルで豊富なコンテキストの相互依存性を獲得するために、Transformerエンコーダ-デコーダアーキテクチャと呼ばれる強力なアテンションメカニズムに基づく新しいトラッカーネットワークを提案します。この新しいアーキテクチャでは、テンプレート画像の特徴がエンコーダ部分の自己注意モジュールによって処理されて強力なコンテキスト情報が学習され、デコーダ部分に送信されて、別の自己によって処理された検索画像の特徴との相互注意が計算されます。 -注意モジュール。さらに、Transformerの出力を使用して分類ヘッドと回帰ヘッドを設計し、形状にとらわれないアンカーに基づいてターゲットをローカライズします。私たちは、VOT2018、VOT2019、OTB-100、UAV、NfS、TrackingNet、およびLaSOTベンチマークでトラッカーTrTrを広範囲に評価しており、この方法は最先端のアルゴリズムに対して良好に機能します。トレーニングコードと事前トレーニング済みモデルは、https://github.com/tongtybj/TrTrで入手できます。
Template-based discriminative trackers are currently the dominant tracking methods due to their robustness and accuracy, and the Siamese-network-based methods that depend on cross-correlation operation between features extracted from template and search images show the state-of-the-art tracking performance. However, general cross-correlation operation can only obtain relationship between local patches in two feature maps. In this paper, we propose a novel tracker network based on a powerful attention mechanism called Transformer encoder-decoder architecture to gain global and rich contextual interdependencies. In this new architecture, features of the template image is processed by a self-attention module in the encoder part to learn strong context information, which is then sent to the decoder part to compute cross-attention with the search image features processed by another self-attention module. In addition, we design the classification and regression heads using the output of Transformer to localize target based on shape-agnostic anchor. We extensively evaluate our tracker TrTr, on VOT2018, VOT2019, OTB-100, UAV, NfS, TrackingNet, and LaSOT benchmarks and our method performs favorably against state-of-the-art algorithms. Training code and pretrained models are available at https://github.com/tongtybj/TrTr.