現在人気のある2ストリーム、2ステージの追跡フレームワークは、テンプレートと検索領域の特徴を別々に抽出してから、関係モデリングを実行します。したがって、抽出された特徴はターゲットの認識を欠き、ターゲットと背景の識別が制限されます。上記の問題に取り組むために、テンプレートと検索の画像ペアを双方向の情報フローとブリッジすることにより、特徴学習と関係モデリングを統合する新しいワンストリームトラッキング(OSTrack)フレームワークを提案します。このように、識別可能なターゲット指向の特徴は、相互のガイダンスによって動的に抽出することができます。余分な重い関係モデリングモジュールは必要なく、実装は高度に並列化されているため、提案されたトラッカーは高速で実行されます。推論効率をさらに向上させるために、ワンストリームフレームワークで事前に計算された強い類似性に基づいて、ネットワーク内の候補早期除去モジュールが提案されます。統合フレームワークとして、OSTrackは複数のベンチマークで最先端のパフォーマンスを実現します。特に、ワンショットトラッキングベンチマークGOT-10kで印象的な結果を示します。つまり、73.7%のAOを達成し、既存の最良の結果を改善します( SwinTrack)4.3%。その上、私たちの方法は、優れたパフォーマンスと速度のトレードオフを維持し、より速い収束を示します。コードとモデルはhttps://github.com/botaoye/OSTrackで入手できます。
The current popular two-stream, two-stage tracking framework extracts the template and the search region features separately and then performs relation modeling, thus the extracted features lack the awareness of the target and have limited target-background discriminability. To tackle the above issue, we propose a novel one-stream tracking (OSTrack) framework that unifies feature learning and relation modeling by bridging the template-search image pairs with bidirectional information flows. In this way, discriminative target-oriented features can be dynamically extracted by mutual guidance. Since no extra heavy relation modeling module is needed and the implementation is highly parallelized, the proposed tracker runs at a fast speed. To further improve the inference efficiency, an in-network candidate early elimination module is proposed based on the strong similarity prior calculated in the one-stream framework. As a unified framework, OSTrack achieves state-of-the-art performance on multiple benchmarks, in particular, it shows impressive results on the one-shot tracking benchmark GOT-10k, i.e., achieving 73.7% AO, improving the existing best result (SwinTrack) by 4.3%. Besides, our method maintains a good performance-speed trade-off and shows faster convergence. The code and models will be available at https://github.com/botaoye/OSTrack.