テンプレートベースの識別トラッカーは、その堅牢性により現在のところ支配的な追跡パラダイムですが、バウンディングボックストラッキングと限られた範囲の変換モデルに制限されているため、ローカライズの精度が低下します。差別的なシングルショットセグメンテーショントラッカー-D3Sを提案します。これは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーション間のギャップを狭くします。シングルショットネットワークは、相補的な幾何学的特性を持つ2つのターゲットモデルを適用します.1つは非剛体変形を含む広範囲の変換に不変で、もう1つは剛体を想定して高い堅牢性とオンラインターゲットセグメンテーションを同時に実現します。データセットごとの微調整がなく、セグメンテーションのみをプライマリ出力としてトレーニングされたD3Sは、VOT2016、VOT2018、およびGOT-10kベンチマークですべてのトラッカーよりも優れており、TrackingNetで最先端のトラッカーに近いパフォーマンスを発揮します。 D3Sは、ビデオオブジェクトセグメンテーションベンチマークで主要なセグメンテーショントラッカーであるSiamMaskよりも優れており、最高のビデオオブジェクトセグメンテーションアルゴリズムと同等のパフォーマンスを発揮します。
Template-based discriminative trackers are currently the dominant tracking paradigm due to their robustness, but are restricted to bounding box tracking and a limited range of transformation models, which reduces their localization accuracy. We propose a discriminative single-shot segmentation tracker - D3S, which narrows the gap between visual object tracking and video object segmentation. A single-shot network applies two target models with complementary geometric properties, one invariant to a broad range of transformations, including non-rigid deformations, the other assuming a rigid object to simultaneously achieve high robustness and online target segmentation. Without per-dataset finetuning and trained only for segmentation as the primary output, D3S outperforms all trackers on VOT2016, VOT2018 and GOT-10k benchmarks and performs close to the state-of-the-art trackers on the TrackingNet. D3S outperforms the leading segmentation tracker SiamMask on video object segmentation benchmark and performs on par with top video object segmentation algorithms, while running an order of magnitude faster, close to real-time.