arXiv reaDer
SwinTrack: 変圧器追跡のシンプルで強力なベースライン
SwinTrack: A Simple and Strong Baseline for Transformer Tracking
最近、Transformer はトラッキングで広く調査されており、最先端 (SOTA) のパフォーマンスが示されています。ただし、既存の取り組みは主に、畳み込みニューラル ネットワーク (CNN) によって生成された機能の融合と強化に焦点を当てています。表現学習における Transformer の可能性は、まだ調査されていません。このホワイト ペーパーでは、古典的なシャム フレームワーク内で SwinTrack と呼ばれるシンプルでありながら効率的な完全に注意を払うトラッカーを提案することにより、Transformer のパワーをさらに解き放つことを目指しています。特に、SwinTrack の表現学習と機能融合の両方が Transformer アーキテクチャを活用し、純粋な CNN またはハイブリッド CNN-Transformer フレームワークよりも優れた追跡機能の相互作用を可能にします。さらに、ロバスト性をさらに強化するために、過去のターゲット軌跡を埋め込んで一時的なコンテキストを提供することで追跡を改善する新しいモーション トークンを提示します。私たちのモーション トークンは軽量であり、計算は無視できますが、明らかな利点があります。私たちの徹底的な実験では、SwinTrack は複数のベンチマークで既存のアプローチを上回っています。特に、挑戦的な LaSOT では、SwinTrack は 0.713 SUC スコアで新記録を樹立しました。また、他のベンチマークでも SOTA の結果を達成しています。 SwinTrack が Transformer 追跡の強固なベースラインとして機能し、将来の研究を促進することを期待しています。コードと結果は https://github.com/LitingLin/SwinTrack で公開されています。
Recently Transformer has been largely explored in tracking and shown state-of-the-art (SOTA) performance. However, existing efforts mainly focus on fusing and enhancing features generated by convolutional neural networks (CNNs). The potential of Transformer in representation learning remains under-explored. In this paper, we aim to further unleash the power of Transformer by proposing a simple yet efficient fully-attentional tracker, dubbed SwinTrack, within classic Siamese framework. In particular, both representation learning and feature fusion in SwinTrack leverage the Transformer architecture, enabling better feature interactions for tracking than pure CNN or hybrid CNN-Transformer frameworks. Besides, to further enhance robustness, we present a novel motion token that embeds historical target trajectory to improve tracking by providing temporal context. Our motion token is lightweight with negligible computation but brings clear gains. In our thorough experiments, SwinTrack exceeds existing approaches on multiple benchmarks. Particularly, on the challenging LaSOT, SwinTrack sets a new record with 0.713 SUC score. It also achieves SOTA results on other benchmarks. We expect SwinTrack to serve as a solid baseline for Transformer tracking and facilitate future research. Our codes and results are released at https://github.com/LitingLin/SwinTrack.
updated: Thu Oct 13 2022 11:31:03 GMT+0000 (UTC)
published: Thu Dec 02 2021 05:56:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト