ビジュアルオブジェクトトラッキングの問題は、従来、バリアントトラッキングパラダイムによって処理されてきました。これは、オブジェクトの外観のモデルをオンラインでのみ学習するか、オフライントレーニングされた埋め込みスペースでオブジェクトをターゲットと一致させることです最近の成功にもかかわらず、各メソッドは固有の制約に苦しんでいます。オンラインのみのアプローチは、学習したモデルの一般化の欠如に悩まされるため、ターゲット回帰が劣りますが、オフラインのみのアプローチ(たとえば、畳み込みシャムトラッカー)は、ターゲット固有のコンテキスト情報を欠くため、処理に十分な識別力がありません。ディストラクタ、および変形に対して十分に堅牢です。したがって、L2エラーの下でターゲット固有の機能を抽出するオフラインシャムネットワークのアテンションメカニズムを持つオンラインモジュールを提案します。さらに、識別学習のための危険なバックグラウンドノイズに適応するフィルター更新戦略と、堅牢な学習のための大きなターゲット変形を処理するためのテンプレート更新戦略を提案します。 3つのシャムベースライン(SiamFC、SiamRPN ++、およびSiamMask)に対する一貫した改善で有効性を検証できます。さらに、SiamRPN ++に基づくモデルは、6つの一般的な追跡ベンチマークで最良の結果を取得し、リアルタイムを超えて動作できます。
The problem of visual object tracking has traditionally been handled by variant tracking paradigms, either learning a model of the object's appearance exclusively online or matching the object with the target in an offline-trained embedding space. Despite the recent success, each method agonizes over its intrinsic constraint. The online-only approaches suffer from a lack of generalization of the model they learn thus are inferior in target regression, while the offline-only approaches (e.g., convolutional siamese trackers) lack the target-specific context information thus are not discriminative enough to handle distractors, and robust enough to deformation. Therefore, we propose an online module with an attention mechanism for offline siamese networks to extract target-specific features under L2 error. We further propose a filter update strategy adaptive to treacherous background noises for discriminative learning, and a template update strategy to handle large target deformations for robust learning. Effectiveness can be validated in the consistent improvement over three siamese baselines: SiamFC, SiamRPN++, and SiamMask. Beyond that, our model based on SiamRPN++ obtains the best results over six popular tracking benchmarks and can operate beyond real-time.