近年、シャムのネットワークベースのトラッカーは、リアルタイムトラッキングの最先端技術を大幅に進歩させました。ただし、最新のシャムトラッカーはメモリコストが高いため、メモリバジェットに厳しい制約があるモバイルアプリケーションへの適用が制限されます。この問題に対処するために、教師の生徒の知識蒸留モデルによって大規模なシャムトラッカー(教師)から重要な知識を取得する、小さくて高速で正確なトラッカー(生徒)を学習するための新しい蒸留シャムトラッキングフレームワークを提案します。このモデルは、学校で最も一般的な教授法である1人の教師と複数の生徒の学習メカニズムに直感的に触発されています。特に、単一の教師と生徒の蒸留モデルと、生徒と生徒の知識共有メカニズムが含まれています。 1つ目は、追跡固有の蒸留戦略によって設計され、教師から生徒に知識を伝達します。後者は、学生間の相互学習に利用され、詳細な知識の理解を可能にします。私たちの知る限りでは、私たちはシャムトラッカーの知識の蒸留を調査し、蒸留されたシャム追跡フレームワークを提案した最初の人です。いくつかの人気のあるシャムトラッカーで理論的分析と広範な経験的評価を行うことにより、フレームワークの一般性と有効性を実証します。 5つのトラッキングベンチマークの結果は、提案された蒸留トラッカーが最大18倍の圧縮率と3倍のスピードアップで265 FPSのフレームレートを達成し、同様の追跡精度またはわずかに改善された追跡精度を明らかに示しています。
In recent years, Siamese network based trackers have significantly advanced the state-of-the-art in real-time tracking. However, state-of-the-art Siamese trackers suffer from high memory cost which restricts their applicability in mobile applications having strict constraints on memory budget. To address this issue, we propose a novel distilled Siamese tracking framework to learn small, fast yet accurate trackers (students), which capture critical knowledge from large Siamese trackers (teachers) by a teacher-students knowledge distillation model. This model is intuitively inspired by a one-teacher vs multi-students learning mechanism, which is the most usual teaching method in the school. In particular, it contains a single teacher-student distillation model and a student-student knowledge sharing mechanism. The first one is designed by a tracking-specific distillation strategy to transfer knowledge from the teacher to students. The later is utilized for mutual learning between students to enable an in-depth knowledge understanding. To the best of our knowledge, we are the first to investigate knowledge distillation for Siamese trackers and propose a distilled Siamese tracking framework. We demonstrate the generality and effectiveness of our framework by conducting a theoretical analysis and extensive empirical evaluations on several popular Siamese trackers. The results on five tracking benchmarks clearly show that the proposed distilled trackers achieve compression rates up to 18× and frame-rates of 265 FPS with speedups of 3×, while obtaining similar or even slightly improved tracking accuracy.