このピクセルでのピクセルカテゴリの分類とオブジェクトバウンディングボックスの回帰として、視覚追跡タスクを2つのサブ問題に分解することにより、ピクセルごとに視覚追跡をエンドツーエンドで解決するための新しい完全な畳み込みシャムネットワークを提案します。提案されているフレームワークSiamCARは、2つの単純なサブネットワークで構成されています。1つは特徴抽出用のSiameseサブネットワーク、もう1つは境界ボックス予測用の分類回帰サブネットワークです。私たちのフレームワークはResNet-50をバックボーンとします。 Siamese-RPN、SiamRPN ++、SPMのような地域の提案に基づく最先端のトラッカーとは異なり、提案されたフレームワークは提案とアンカーフリーの両方です。その結果、アンカーのトリッキーなハイパーパラメーターチューニングを回避し、人間の介入を減らすことができます。提案されたフレームワークはシンプルで、きちんとしていて効果的です。 GOT-10K、LaSOT、UAV123、OTB-50などの多くの挑戦的なベンチマークで、広範な実験と最先端のトラッカーとの比較が行われています。添えものなしで、私たちのSiamCARはかなりのリアルタイム速度で最高のパフォーマンスを達成します。
By decomposing the visual tracking task into two subproblems as classification for pixel category and regression for object bounding box at this pixel, we propose a novel fully convolutional Siamese network to solve visual tracking end-to-end in a per-pixel manner. The proposed framework SiamCAR consists of two simple subnetworks: one Siamese subnetwork for feature extraction and one classification-regression subnetwork for bounding box prediction. Our framework takes ResNet-50 as backbone. Different from state-of-the-art trackers like Siamese-RPN, SiamRPN++ and SPM, which are based on region proposal, the proposed framework is both proposal and anchor free. Consequently, we are able to avoid the tricky hyper-parameter tuning of anchors and reduce human intervention. The proposed framework is simple, neat and effective. Extensive experiments and comparisons with state-of-the-art trackers are conducted on many challenging benchmarks like GOT-10K, LaSOT, UAV123 and OTB-50. Without bells and whistles, our SiamCAR achieves the leading performance with a considerable real-time speed.