汎用のニューラルアーキテクチャを利用して、手作業で配線された設計や誘導バイアスを置き換えることは、最近大きな関心を集めています。ただし、既存の追跡アプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャを選択するための事前知識が必要であるため、より一般的なシステムでの追跡開発が妨げられます。このホワイトペーパーでは、トランスフォーマーのバックボーンを活用して特徴の抽出と相互作用を行うことにより、Simplified Trackingアーキテクチャ(SimTrack)を紹介します。既存のシャムトラッカーとは異なり、入力画像をシリアル化し、1ブランチバックボーンの直前に連結します。バックボーンでの機能の相互作用は、適切に設計された相互作用モジュールを削除し、より効率的で効果的なフレームワークを作成するのに役立ちます。ビジョントランスのダウンサンプリングによる情報損失を減らすために、中心窩ウィンドウ戦略をさらに提案し、許容可能な計算コストでより多様な入力パッチを提供します。私たちのSimTrackは、LaSOT / TNL2Kで2.5%/ 2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競争力のある結果を取得します。
Exploiting a general-purpose neural architecture to replace hand-wired designs or inductive biases has recently drawn extensive interest. However, existing tracking approaches rely on customized sub-modules and need prior knowledge for architecture selection, hindering the tracking development in a more general system. This paper presents a Simplified Tracking architecture (SimTrack) by leveraging a transformer backbone for joint feature extraction and interaction. Unlike existing Siamese trackers, we serialize the input images and concatenate them directly before the one-branch backbone. Feature interaction in the backbone helps to remove well-designed interaction modules and produce a more efficient and effective framework. To reduce the information loss from down-sampling in vision transformers, we further propose a foveal window strategy, providing more diverse input patches with acceptable computational costs. Our SimTrack improves the baseline with 2.5%/2.6% AUC gains on LaSOT/TNL2K and gets results competitive with other specialized tracking algorithms without bells and whistles.