オブジェクト追跡は、単一オブジェクト追跡 (SOT) と複数オブジェクト追跡 (MOT) に分けられます。 MOT は、一連の連続したビデオ シーケンス全体で複数のオブジェクトのアイデンティティを維持することを目的としています。近年、MOTは急速な進歩を遂げています。ただし、複雑なシーンでオブジェクトのモーション モデルと外観モデルをモデル化することは、依然としてさまざまな困難な問題に直面しています。この論文では、滑らかな軌道予測(STP-DC)のための新しい方向一貫性方法を設計して、動き情報のモデリングを増やし、複雑なシーンでの以前の方法のロバスト性の欠如を克服します。既存の方法では、歩行者の再識別 (Re-ID) を使用して外観をモデル化していますが、遮蔽物や混雑したシーンでの識別性に欠ける背景情報をより多く抽出します。ハイパーグレイン機能埋め込みネットワーク (HG-FEN) を提案して、外観モデルのモデリングを強化し、堅牢な外観記述子を生成します。また、堅牢な外観情報を保存するためのCF-ECMや、関連付けの精度を向上させるためのSK-ASなど、他の堅牢性手法も提案しました。 MOT で最先端のパフォーマンスを実現するために、さまざまなトリックやテクニックを組み込んだ Rt-track という名前の堅牢なトラッカーを提案します。 Rt-track は、MOT17 のテスト セットで 79.5 MOTA、76.0 IDF1、および 62.1 HOTA を達成し、MOT20 で 77.9 MOTA、78.4 IDF1、および 63.3 HOTA を達成し、公開されているすべての方法を上回っています。
Object tracking is divided into single-object tracking (SOT) and multi-object tracking (MOT). MOT aims to maintain the identities of multiple objects across a series of continuous video sequences. In recent years, MOT has made rapid progress. However, modeling the motion and appearance models of objects in complex scenes still faces various challenging issues. In this paper, we design a novel direction consistency method for smooth trajectory prediction (STP-DC) to increase the modeling of motion information and overcome the lack of robustness in previous methods in complex scenes. Existing methods use pedestrian re-identification (Re-ID) to model appearance, however, they extract more background information which lacks discriminability in occlusion and crowded scenes. We propose a hyper-grain feature embedding network (HG-FEN) to enhance the modeling of appearance models, thus generating robust appearance descriptors. We also proposed other robustness techniques, including CF-ECM for storing robust appearance information and SK-AS for improving association accuracy. To achieve state-of-the-art performance in MOT, we propose a robust tracker named Rt-track, incorporating various tricks and techniques. It achieves 79.5 MOTA, 76.0 IDF1 and 62.1 HOTA on the test set of MOT17.Rt-track also achieves 77.9 MOTA, 78.4 IDF1 and 63.3 HOTA on MOT20, surpassing all published methods.