arXiv reaDer
SparseTT:スパーストランスフォーマーを使用したビジュアルトラッキング
SparseTT: Visual Tracking with Sparse Transformers
トランスフォーマーはビジュアルトラッキングタスクに正常に適用され、トラッキングパフォーマンスを大幅に向上させています。長期的な依存関係をモデル化するために設計された自己注意メカニズムは、トランスフォーマーの成功の鍵です。ただし、検索領域で最も関連性の高い情報に注意を向けることができないため、背景に気を取られやすくなっています。この論文では、検索領域で最も関連性の高い情報に焦点を当てることにより、スパースアテンションメカニズムでこの問題を軽減します。これにより、非常に正確な追跡が可能になります。さらに、前景と背景の分類とターゲット境界ボックスの回帰の精度を高めるために、ダブルヘッド予測子を導入します。これにより、追跡パフォーマンスがさらに向上します。広範な実験により、ベルやホイッスルがない場合、40 FPSで実行している間、私たちの方法はLaSOT、GOT-10k、TrackingNet、およびUAV123の最先端のアプローチを大幅に上回っています。特に、私たちの方法のトレーニング時間は、TransTのトレーニング時間と比較して75%短縮されています。ソースコードとモデルはhttps://github.com/fzh0917/SparseTTで入手できます。
Transformers have been successfully applied to the visual tracking task and significantly promote tracking performance. The self-attention mechanism designed to model long-range dependencies is the key to the success of Transformers. However, self-attention lacks focusing on the most relevant information in the search regions, making it easy to be distracted by background. In this paper, we relieve this issue with a sparse attention mechanism by focusing the most relevant information in the search regions, which enables a much accurate tracking. Furthermore, we introduce a double-head predictor to boost the accuracy of foreground-background classification and regression of target bounding boxes, which further improve the tracking performance. Extensive experiments show that, without bells and whistles, our method significantly outperforms the state-of-the-art approaches on LaSOT, GOT-10k, TrackingNet, and UAV123, while running at 40 FPS. Notably, the training time of our method is reduced by 75% compared to that of TransT. The source code and models are available at https://github.com/fzh0917/SparseTT.
updated: Sun May 08 2022 04:00:28 GMT+0000 (UTC)
published: Sun May 08 2022 04:00:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト