arXiv reaDer
PVT++: シンプルなエンドツーエンドのレイテンシー対応ビジュアル トラッキング フレームワーク
PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
視覚オブジェクト トラッキングは、インテリジェント ロボットにとって不可欠です。既存のアプローチのほとんどは、実際の処理中に深刻なパフォーマンス低下を引き起こす可能性があるオンライン レイテンシを無視してきました。特に無人航空機 (UAV) では、ロバストな追跡がより難しく、オンボードの計算が制限されているため、レイテンシの問題は致命的となる可能性があります。この作業では、エンド ツー エンドのレイテンシーを意識した追跡、つまりエンド ツー エンドの予測ビジュアル トラッキング (PVT++) のための単純なフレームワークを提示します。単純にトラッカーの後にカルマン フィルターを追加する既存のソリューションとは異なり、PVT++ は共同で最適化できるため、モーション情報だけでなく、ほとんどの事前トレーニング済みトラッカー モデルの豊富な視覚的知識を活用して堅牢な予測を行うことができます。さらに、トレーニングと評価のドメインのギャップを埋めるために、相対モーション ファクターを提案し、PVT++ を強化して、挑戦的で複雑な UAV 追跡シーンに一般化します。これらの慎重な設計により、小容量で軽量な PVT++ は広く効果的なソリューションになりました。さらに、この作業は、オンライン設定で任意の速度のトラッカーを評価するための、拡張された遅延を考慮した評価ベンチマークを示しています。空中から見たロボット プラットフォームでの実験結果は、PVT++ がさまざまなトラッカーで大幅なパフォーマンスの向上を達成し、以前のソリューションよりも高い精度を示し、レイテンシによる劣化を大幅に軽減できることを示しています。私たちのコードは公開されます。
Visual object tracking is essential to intelligent robots. Most existing approaches have ignored the online latency that can cause severe performance degradation during real-world processing. Especially for unmanned aerial vehicles (UAVs), where robust tracking is more challenging and onboard computation is limited, the latency issue can be fatal. In this work, we present a simple framework for end-to-end latency-aware tracking, i.e., end-to-end predictive visual tracking (PVT++). Unlike existing solutions that naively append Kalman Filters after trackers, PVT++ can be jointly optimized, so that it takes not only motion information but can also leverage the rich visual knowledge in most pre-trained tracker models for robust prediction. Besides, to bridge the training-evaluation domain gap, we propose a relative motion factor, empowering PVT++ to generalize to the challenging and complex UAV tracking scenes. These careful designs have made the small-capacity lightweight PVT++ a widely effective solution. Additionally, this work presents an extended latency-aware evaluation benchmark for assessing an any-speed tracker in the online setting. Empirical results on a robotic platform from the aerial perspective show that PVT++ can achieve significant performance gain on various trackers and exhibit higher accuracy than prior solutions, largely mitigating the degradation brought by latency. Our code will be made public.
updated: Wed Mar 22 2023 03:28:46 GMT+0000 (UTC)
published: Mon Nov 21 2022 16:43:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト