arXiv reaDer
周期的シフトウィンドウに注意を払った変圧器の追跡
Transformer Tracking with Cyclic Shifting Window Attention
Transformerアーキテクチャは、効果的なアテンションメカニズムにより、ビジュアルオブジェクトトラッキングで大きな強みを発揮しています。既存のトランスベースのアプローチは、平坦化された画像の特徴にピクセル間の注意戦略を採用し、オブジェクトの整合性を不可避的に無視します。この論文では、視覚オブジェクト追跡のためのマルチスケールサイクリックシフトウィンドウ注意を備えた新しいトランスアーキテクチャを提案し、ピクセルからウィンドウレベルに注意を高めます。クロスウィンドウマルチスケールアテンションには、さまざまなスケールでアテンションを集約するという利点があり、ターゲットオブジェクトに最適なファインスケールの一致を生成します。さらに、サイクリックシフト戦略は、位置情報を使用してウィンドウサンプルを拡張することで精度を高め、同時に冗長な計算を削除することで大量の計算能力を節約します。広範な実験は、VOT2020、UAV123、LaSOT、TrackingNet、およびGOT-10kベンチマークとともに、5つの挑戦的なデータセットに新しい最先端の記録を設定する私たちの方法の優れたパフォーマンスを示しています。
Transformer architecture has been showing its great strength in visual object tracking, for its effective attention mechanism. Existing transformer-based approaches adopt the pixel-to-pixel attention strategy on flattened image features and unavoidably ignore the integrity of objects. In this paper, we propose a new transformer architecture with multi-scale cyclic shifting window attention for visual object tracking, elevating the attention from pixel to window level. The cross-window multi-scale attention has the advantage of aggregating attention at different scales and generates the best fine-scale match for the target object. Furthermore, the cyclic shifting strategy brings greater accuracy by expanding the window samples with positional information, and at the same time saves huge amounts of computational power by removing redundant calculations. Extensive experiments demonstrate the superior performance of our method, which also sets the new state-of-the-art records on five challenging datasets, along with the VOT2020, UAV123, LaSOT, TrackingNet, and GOT-10k benchmarks.
updated: Sun May 08 2022 07:46:34 GMT+0000 (UTC)
published: Sun May 08 2022 07:46:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト