arXiv reaDer
正確な追跡のためのターゲット変換回帰
Target Transformed Regression for Accurate Tracking
正確な追跡は、外観の変化、ポーズとビューの変更、およびビデオ内のターゲットの幾何学的変形のために、依然として困難な作業です。最近のアンカーフリートラッカーは、効率的な回帰メカニズムを提供しますが、正確なバウンディングボックス推定を生成できません。これらの問題に対処するために、このペーパーでは、正確なアンカーフリー追跡のために、Target Transformed Regression(TREG)と呼ばれるTransformerに似た回帰ブランチを再利用します。 TREGの中核は、ターゲットテンプレートと検索領域の要素間のペアワイズ関係をモデル化し、結果として得られたターゲット拡張視覚表現を使用して、正確なバウンディングボックス回帰を行うことです。このターゲットのコンテキスト化された表現は、ターゲットに関連する情報を強化して、ボックスの境界を正確に特定し、そのローカルで高密度のマッチングメカニズムにより、オブジェクトの変形をある程度処理することができます。さらに、信頼性の高いテンプレートを選択するためのシンプルなオンラインテンプレート更新メカニズムを考案し、時間内のターゲットの外観の変化と幾何学的変形に対する堅牢性を高めます。 VOT2018、VOT2019、OTB100、GOT10k、NFS、UAV123、LaSOT、TrackingNetなどのビジュアルトラッキングベンチマークの実験結果は、TREGが最先端のパフォーマンスを実現し、LaSOTで0.640の成功率を達成し、約30で実行していることを示しています。 FPS。コードとモデルはhttps://github.com/MCG-NJU/TREGで入手できます。
Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/MCG-NJU/TREG.
updated: Thu Apr 01 2021 11:25:23 GMT+0000 (UTC)
published: Thu Apr 01 2021 11:25:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト