視覚的な追跡の問題では、特定のターゲットに対して堅牢な分類と正確なターゲット状態推定を同時に効率的に実行する必要があります。以前の方法は、ターゲット状態推定のさまざまな方法を提案しましたが、視覚追跡問題自体の特殊性を考慮したものはほとんどありませんでした。慎重に分析した後、高性能の汎用オブジェクトトラッカー設計のためのターゲット状態推定の実用的なガイドラインを提案します。これらのガイドラインに従って、分類とターゲット状態推定ブランチ(G1)、あいまいさのない分類スコア(G2)、事前知識なしの追跡(G3)、および推定品質スコア(G4)の両方を導入して、完全畳み込みシャムトラッカー++(SiamFC ++)を設計します。広範な分析とアブレーションの研究は、提案されたガイドラインの有効性を示しています。 SiamFC ++トラッカーは、5つの困難なベンチマーク(OTB2015、VOT2018、LaSOT、GOT-10k、TrackingNet)で最先端のパフォーマンスを実現します。これにより、トラッカーの追跡機能と一般化機能の両方が証明されます。特に、大規模なTrackingNetデータセットでは、SiamFC ++は、リアルタイム要件をはるかに上回る90 FPSで実行中に、75.4の未確認のAUCスコアを達成します。コードとモデルはhttps://github.com/MegviiDetection/video_analystで入手できます。
Visual tracking problem demands to efficiently perform robust classification and accurate target state estimation over a given target at the same time. Former methods have proposed various ways of target state estimation, yet few of them took the particularity of the visual tracking problem itself into consideration. After a careful analysis, we propose a set of practical guidelines of target state estimation for high-performance generic object tracker design. Following these guidelines, we design our Fully Convolutional Siamese tracker++ (SiamFC++) by introducing both classification and target state estimation branch(G1), classification score without ambiguity(G2), tracking without prior knowledge(G3), and estimation quality score(G4). Extensive analysis and ablation studies demonstrate the effectiveness of our proposed guidelines. Without bells and whistles, our SiamFC++ tracker achieves state-of-the-art performance on five challenging benchmarks(OTB2015, VOT2018, LaSOT, GOT-10k, TrackingNet), which proves both the tracking and generalization ability of the tracker. Particularly, on the large-scale TrackingNet dataset, SiamFC++ achieves a previously unseen AUC score of 75.4 while running at over 90 FPS, which is far above the real-time requirement. Code and models are available at: https://github.com/MegviiDetection/video_analyst .