arXiv reaDer
SGDViT: UAV 追跡用の Saliency-Guided Dynamic Vision Transformer
SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
ビジョンベースの物体追跡は、無人航空機 (UAV) の広範な自律型アプリケーションを後押ししています。しかしながら、UAVの追跡で遭遇する飛行操縦と視点の動的な変化は、例えば縦横比の変化やスケールの変動など、重大な困難をもたらす。従来の相互相関操作は、一般的に使用されていますが、知覚的な類似性を効果的に捉えるには限界があり、無関係な背景情報が組み込まれています。これらの制限を軽減するために、この作業では、UAV 追跡用の新しい顕著性ガイド付きダイナミック ビジョン トランスフォーマー (SGDViT) を紹介します。提案された方法は、新しいタスク固有のオブジェクト顕著性マイニング ネットワークを設計して、相互相関演算を改良し、フォアグラウンド情報とバックグラウンド情報を効果的に識別します。さらに、顕著性適応埋め込み操作は、初期の顕著性に基づいてトークンを動的に生成するため、Transformer アーキテクチャの計算の複雑さが軽減されます。最後に、軽量の顕著性フィルタリング Transformer は、顕著性情報をさらに洗練し、外観情報への注目を高めます。提案されたアプローチの有効性と堅牢性は、3 つの広く使用されている UAV 追跡ベンチマークと現実世界のシナリオでの実験を通じて徹底的に評価されており、結果はその優位性を実証しています。ソース コードとデモ ビデオは、https://github.com/vision4robotics/SGDViT で入手できます。
Vision-based object tracking has boosted extensive autonomous applications for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight maneuver and viewpoint encountered in UAV tracking pose significant difficulties, e.g. , aspect ratio change, and scale variation. The conventional cross-correlation operation, while commonly used, has limitations in effectively capturing perceptual similarity and incorporates extraneous background information. To mitigate these limitations, this work presents a novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The proposed method designs a new task-specific object saliency mining network to refine the cross-correlation operation and effectively discriminate foreground and background information. Additionally, a saliency adaptation embedding operation dynamically generates tokens based on initial saliency, thereby reducing the computational complexity of the Transformer architecture. Finally, a lightweight saliency filtering Transformer further refines saliency information and increases the focus on appearance information. The efficacy and robustness of the proposed approach have been thoroughly assessed through experiments on three widely-used UAV tracking benchmarks and real-world scenarios, with results demonstrating its superiority. The source code and demo videos are available at https://github.com/vision4robotics/SGDViT.
updated: Wed Mar 08 2023 05:01:00 GMT+0000 (UTC)
published: Wed Mar 08 2023 05:01:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト