近年、視覚追跡の特徴表現に目覚ましい進歩が見られましたが、分類タスクと回帰タスクの間の特徴の不整合の問題はほとんど見過ごされています。特徴抽出のアプローチは、ほとんどの高度なトラッカーでこれら2つのタスクに違いはありません。顕著な領域から抽出された特徴が分類のためのより認識可能な視覚パターンを提供し、境界の周りのこれらがターゲット状態の正確な推定に寄与するため、視覚追跡のパフォーマンスゲインは制限されると主張します。タスク固有の視覚パターンをキャプチャするために、極性プーリングと極端なプーリングという名前の2つのカスタマイズされた機能抽出機能を提案することでこの問題に対処します。極プーリングは、より強力な分類のためにセマンティックキーポイントから収集された情報を充実させる役割を果たしますが、極端なプーリングは、正確なターゲット状態推定のためのオブジェクト境界の明示的な視覚パターンを容易にします。最近の高度なトラッカーRPTに統合することにより、タスク固有の機能表現の有効性を示します。いくつかのベンチマークでの広範な実験により、カスタマイズ機能ベースのRPT(RPT ++)が、OTB-100、VOT2018、VOT2019、GOT-10k、TrackingNet、およびLaSOTで新しい最先端のパフォーマンスを実現することが示されています。
While recent years have witnessed remarkable progress in the feature representation of visual tracking, the problem of feature misalignment between the classification and regression tasks is largely overlooked. The approaches of feature extraction make no difference for these two tasks in most of advanced trackers. We argue that the performance gain of visual tracking is limited since features extracted from the salient area provide more recognizable visual patterns for classification, while these around the boundaries contribute to accurately estimating the target state. We address this problem by proposing two customized feature extractors, named polar pooling and extreme pooling to capture task-specific visual patterns. Polar pooling plays the role of enriching information collected from the semantic keypoints for stronger classification, while extreme pooling facilitates explicit visual patterns of the object boundary for accurate target state estimation. We demonstrate the effectiveness of the task-specific feature representation by integrating it into the recent and advanced tracker RPT. Extensive experiments on several benchmarks show that our Customized Features based RPT (RPT++) achieves new state-of-the-art performances on OTB-100, VOT2018, VOT2019, GOT-10k, TrackingNet and LaSOT.