既存のエンドツーエンドのマルチオブジェクト追跡 (e2e-MOT) 方法は、非エンドツーエンドの検出による追跡方法を超えていません。考えられる理由の 1 つは、追跡されたオブジェクトを追跡クエリに一貫してバインドし、少数の新生児を検出クエリに割り当てるトレーニング中のラベル割り当て戦略です。 1 対 1 の 2 部マッチングでは、このような割り当てにより不均衡なトレーニングが生成されます。つまり、新生児の大部分がビデオの冒頭でステージに登場するため、特に囲まれたシーンでは、検出クエリに対する陽性サンプルが不足します。したがって、e2e-MOT は、他の検出による追跡方法と比較して、更新や再初期化を行わずに追跡端末を生成することが容易になります。この問題を軽減するために、シャドウ概念を備えた新しい協調ラベル割り当てによって e2e-MOT を促進するシンプルで効果的な方法である Co-MOT を紹介します。具体的には、中間デコーダをトレーニングするためのラベル割り当てを実行するときに、追跡されたオブジェクトを検出クエリの一致ターゲットに追加します。クエリの初期化では、各クエリを、それ自体への妨害を制限した一連のシャドウ対応部分によって拡張します。広範なアブレーションにより、Co-MOT は追加コストなしで優れたパフォーマンスを達成します (例: DanceTrack では 69.4% の HOTA、BDD100K では 52.8% TETA)。印象的なことに、Co-MOT は同様のパフォーマンスを達成するために MOTRv2 の 38% の FLOP しか必要とせず、結果として推論速度が 1.4 倍速くなります。
Existing end-to-end Multi-Object Tracking (e2e-MOT) methods have not surpassed non-end-to-end tracking-by-detection methods. One potential reason is its label assignment strategy during training that consistently binds the tracked objects with tracking queries and then assigns the few newborns to detection queries. With one-to-one bipartite matching, such an assignment will yield unbalanced training, i.e., scarce positive samples for detection queries, especially for an enclosed scene, as the majority of the newborns come on stage at the beginning of videos. Thus, e2e-MOT will be easier to yield a tracking terminal without renewal or re-initialization, compared to other tracking-by-detection methods. To alleviate this problem, we present Co-MOT, a simple and effective method to facilitate e2e-MOT by a novel coopetition label assignment with a shadow concept. Specifically, we add tracked objects to the matching targets for detection queries when performing the label assignment for training the intermediate decoders. For query initialization, we expand each query by a set of shadow counterparts with limited disturbance to itself. With extensive ablations, Co-MOT achieves superior performance without extra costs, e.g., 69.4% HOTA on DanceTrack and 52.8% TETA on BDD100K. Impressively, Co-MOT only requires 38% FLOPs of MOTRv2 to attain a similar performance, resulting in the 1.4× faster inference speed.