マルチオブジェクト トラッキング (MOT) のためのカルマン フィルター (KF) ベースの方法では、オブジェクトが直線的に移動すると仮定します。この仮定は、非常に短い期間のオクルージョンには受け入れられますが、長時間の動きの線形推定は非常に不正確になる可能性があります。さらに、カルマン フィルター パラメーターを更新するために使用できる測定値がない場合、標準的な規則は事後更新の事前状態推定を信頼することです。これにより、閉塞期間中にエラーが蓄積されます。この誤差は、実際には大きな運動方向の変動を引き起こします。この作業では、オクルージョン中に蓄積されたノイズを修正するために適切な注意を払えば、基本的なカルマン フィルターでも最先端のトラッキング パフォーマンスを得ることができることを示します。線形状態推定 (つまり、推定中心のアプローチ) のみに依存する代わりに、オブジェクトの観測 (つまり、オブジェクト検出器による測定) を使用して、オクルージョン期間中の仮想軌跡を計算し、オクルージョン中のフィルター パラメーターの誤差蓄積を修正します。閉塞期間。これにより、オクルージョン中に蓄積されたエラーを修正するためにより多くの時間ステップが可能になります。このメソッドを Observation-Centric SORT (OC-SORT) と名付けます。シンプル、オンライン、リアルタイムのままですが、オクルージョンおよび非線形モーション中の堅牢性が向上します。市販の検出を入力として指定すると、OC-SORT は単一の CPU で 700+ FPS で実行されます。 MOT17、MOT20、KITTI、ヘッド トラッキング、特にオブジェクトの動きが非常に非線形である DanceTrack など、複数のデータセットで最先端の機能を実現します。コードとモデルは https://github.com/noahcao/OC_SORT で入手できます。
Kalman filter (KF) based methods for multi-object tracking (MOT) make an assumption that objects move linearly. While this assumption is acceptable for very short periods of occlusion, linear estimates of motion for prolonged time can be highly inaccurate. Moreover, when there is no measurement available to update Kalman filter parameters, the standard convention is to trust the priori state estimations for posteriori update. This leads to the accumulation of errors during a period of occlusion. The error causes significant motion direction variance in practice. In this work, we show that a basic Kalman filter can still obtain state-of-the-art tracking performance if proper care is taken to fix the noise accumulated during occlusion. Instead of relying only on the linear state estimate (i.e., estimation-centric approach), we use object observations (i.e., the measurements by object detector) to compute a virtual trajectory over the occlusion period to fix the error accumulation of filter parameters during the occlusion period. This allows more time steps to correct errors accumulated during occlusion. We name our method Observation-Centric SORT (OC-SORT). It remains Simple, Online, and Real-Time but improves robustness during occlusion and non-linear motion. Given off-the-shelf detections as input, OC-SORT runs at 700+ FPS on a single CPU. It achieves state-of-the-art on multiple datasets, including MOT17, MOT20, KITTI, head tracking, and especially DanceTrack where the object motion is highly non-linear. The code and models are available at https://github.com/noahcao/OC_SORT.