最新の複数オブジェクト追跡(MOT)システムは、通常、検出による追跡パラダイムに従います。これは、1)ターゲットのローカライズのための検出モデルと2)データの関連付けのための外観埋め込みモデルを備えています。 2つのモデルを個別に実行すると、実行時間は2つのステップの合計であり、モデル間で共有できる潜在的な構造を調査しないため、効率の問題が発生する可能性があります。リアルタイムMOTに関する既存の研究活動は通常、関連付けステップに焦点を当てているため、それらは本質的にリアルタイム関連付け方法ですが、リアルタイムMOTシステムではありません。この論文では、共有モデルでターゲットの検出と外観の埋め込みを学習できるMOTシステムを提案します。具体的には、外観の埋め込みモデルをシングルショット検出器に組み込み、モデルが検出と対応する埋め込みを同時に出力できるようにします。さらに、ジョイントモデルと連携して機能するシンプルで高速な関連付け方法を提案します。どちらのコンポーネントでも、以前のMOTシステムと比較して計算コストが大幅に削減され、リアルタイムMOTアルゴリズム設計の将来のフォローアップのためのきちんとした高速なベースラインが得られます。私たちの知る限り、この作品は、最初の(ほぼ)リアルタイムMOTシステムを報告しています。実行速度は、入力解像度に応じて22〜40 FPSです。その間、その追跡精度は、個別の検出および埋め込み(SDE)学習を具体化する最先端のトラッカーに匹敵します(MOT-16チャレンジで64.4%MOTA対66.1%MOTA)。コードとモデルはhttps://github.com/Zhongdao/Towards-Realtime-MOTで入手できます。
Modern multiple object tracking (MOT) systems usually follow the tracking-by-detection paradigm. It has 1) a detection model for target localization and 2) an appearance embedding model for data association. Having the two models separately executed might lead to efficiency problems, as the running time is simply a sum of the two steps without investigating potential structures that can be shared between them. Existing research efforts on real-time MOT usually focus on the association step, so they are essentially real-time association methods but not real-time MOT system. In this paper, we propose an MOT system that allows target detection and appearance embedding to be learned in a shared model. Specifically, we incorporate the appearance embedding model into a single-shot detector, such that the model can simultaneously output detections and the corresponding embeddings. We further propose a simple and fast association method that works in conjunction with the joint model. In both components the computation cost is significantly reduced compared with former MOT systems, resulting in a neat and fast baseline for future follow-ups on real-time MOT algorithm design. To our knowledge, this work reports the first (near) real-time MOT system, with a running speed of 22 to 40 FPS depending on the input resolution. Meanwhile, its tracking accuracy is comparable to the state-of-the-art trackers embodying separate detection and embedding (SDE) learning (64.4% MOTA \vs 66.1% MOTA on MOT-16 challenge). Code and models are available at https://github.com/Zhongdao/Towards-Realtime-MOT.