Multiple Object Tracking (MOT) は、連続するビデオ フレーム内のターゲット オブジェクトの境界ボックスとアイデンティティを見つけることを目的としています。完全教師あり MOT 手法は既存のデータセットでは高い精度を達成していますが、新しく取得したデータセットや新しい未知のドメインではうまく一般化できません。この研究では、実際に新しいデータを取得するプロセスを模倣しながら、まずクロスドメインの観点から MOT 問題に取り組みます。次に、オブジェクトの理解とモデリングにおける事前定義された人間の知識なしで、既存のデータセットからの新しいクロスドメイン MOT 適応が提案されます。また、ターゲット データのフィードバックから学習して自身を更新することもできます。集中的な実験は、MOTSynth から MOT17、MOT17 から MOT20、MOT17 から VisDrone、MOT17 から DanceTrack を含む 4 つの挑戦的な設定で設計されています。次に、提案された自己教師あり学習戦略の適応性を証明します。この実験では、完全教師あり、教師なし、自己教師ありの最先端の手法と比較して、追跡メトリクス MOTA および IDF1 においても優れたパフォーマンスを示しています。
Multiple Object Tracking (MOT) aims to find bounding boxes and identities of targeted objects in consecutive video frames. While fully-supervised MOT methods have achieved high accuracy on existing datasets, they cannot generalize well on a newly obtained dataset or a new unseen domain. In this work, we first address the MOT problem from the cross-domain point of view, imitating the process of new data acquisition in practice. Then, a new cross-domain MOT adaptation from existing datasets is proposed without any pre-defined human knowledge in understanding and modeling objects. It can also learn and update itself from the target data feedback. The intensive experiments are designed on four challenging settings, including MOTSynth to MOT17, MOT17 to MOT20, MOT17 to VisDrone, and MOT17 to DanceTrack. We then prove the adaptability of the proposed self-supervised learning strategy. The experiments also show superior performance on tracking metrics MOTA and IDF1, compared to fully supervised, unsupervised, and self-supervised state-of-the-art methods.