最近の多くの追跡アプローチは過去10年間で飛躍的な進歩を遂げましたが、高性能な視覚追跡を達成することは依然として課題です。本論文では、正確な対象物の識別と位置特定のための強化された注意表現を学習するためのエンドツーエンドネットワークモデルを提案します。視覚的パターンの強調を効果的に促進するために、フレーム間およびフレーム内の両方の注意を活用するために、長期の短期記憶と多層パーセプトロンを備えた新しい階層型注意モジュールを利用します。さらに、バックボーンネットワークにコンテキストの注意相関フィルターを組み込んで、モデルをエンドツーエンドでトレーニングできるようにします。提案されたアプローチは、有益なジオメトリとセマンティクスを最大限に活用するだけでなく、バックボーンネットワークを微調整することなくオンラインで相関フィルターを更新して、ターゲットオブジェクトの外観の変化を適応できるようにします。いくつかの一般的なベンチマークデータセットで実施された広範な実験は、提案されたアプローチが効果的で、計算効率が高いことを示しています。
Although numerous recent tracking approaches have made tremendous advances in the last decade, achieving high-performance visual tracking remains a challenge. In this paper, we propose an end-to-end network model to learn reinforced attentional representation for accurate target object discrimination and localization. We utilize a novel hierarchical attentional module with long short-term memory and multi-layer perceptrons to leverage both inter- and intra-frame attention to effectively facilitate visual pattern emphasis. Moreover, we incorporate a contextual attentional correlation filter into the backbone network to make our model trainable in an end-to-end fashion. Our proposed approach not only takes full advantage of informative geometries and semantics but also updates correlation filters online without fine-tuning the backbone network to enable the adaptation of variations in the target object's appearance. Extensive experiments conducted on several popular benchmark datasets demonstrate that our proposed approach is effective and computationally efficient.