マルチオブジェクトトラッキング(MOT)の一般的なパイプラインは、オブジェクトのローカリゼーションに検出器を使用し、オブジェクトの関連付けに再識別(re-ID)を実行することです。このパイプラインは、オブジェクト検出とre-IDの両方の最近の進歩によって部分的に動機付けられ、既存の追跡データセットのバイアスによって部分的に動機付けられています。このようなバイアスに対応して、オブジェクトの外観が十分に識別できない場合にも、マルチオブジェクト追跡の方法が機能する必要があることを再度強調したいと思います。この目的のために、我々は、人間が同様の外観、多様な動き、および極端な明瞭度を有する、複数の人間を追跡するための大規模なデータセットを提案します。データセットには主にグループダンスのビデオが含まれているため、「DanceTrack」という名前を付けます。 DanceTrackは、視覚的識別に依存せず、モーション分析に依存するMOTアルゴリズムを開発するためのより良いプラットフォームを提供することを期待しています。データセットでいくつかの最先端のトラッカーのベンチマークを行い、既存のベンチマークと比較した場合、DanceTrackのパフォーマンスが大幅に低下することを確認しています。データセット、プロジェクトコード、および競合サーバーは、https://github.com/DanceTrackでリリースされています。
A typical pipeline for multi-object tracking (MOT) is to use a detector for object localization, and following re-identification (re-ID) for object association. This pipeline is partially motivated by recent progress in both object detection and re-ID, and partially motivated by biases in existing tracking datasets, where most objects tend to have distinguishing appearance and re-ID models are sufficient for establishing associations. In response to such bias, we would like to re-emphasize that methods for multi-object tracking should also work when object appearance is not sufficiently discriminative. To this end, we propose a large-scale dataset for multi-human tracking, where humans have similar appearance, diverse motion and extreme articulation. As the dataset contains mostly group dancing videos, we name it "DanceTrack". We expect DanceTrack to provide a better platform to develop more MOT algorithms that rely less on visual discrimination and depend more on motion analysis. We benchmark several state-of-the-art trackers on our dataset and observe a significant performance drop on DanceTrack when compared against existing benchmarks. The dataset, project code and competition server are released at: https://github.com/DanceTrack.