マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトの境界ボックスとIDを推定することを目的としています。ほとんどの方法は、スコアがしきい値よりも高い検出ボックスを関連付けることによってIDを取得します。検出スコアが低いオブジェクト(たとえば、遮蔽されたオブジェクト)は単純に破棄されます。これにより、無視できない真のオブジェクトが欠落し、軌道が断片化されます。この問題を解決するために、BYTEと呼ばれるシンプルで効果的で一般的な関連付け方法を紹介します。これは、高スコアの検出ボックスだけでなく、すべての検出ボックスをBYassociaTingで追跡します。低スコアの検出ボックスについては、トラックレットとの類似性を利用して、真のオブジェクトを復元し、バックグラウンド検出を除外します。 BYTEを9つの異なる最先端のトラッカーに適用し、1〜10ポイントの範囲でIDF1スコアの一貫した改善を実現します。 MOTの最先端のパフォーマンスを推進するために、ByteTrackという名前のシンプルで強力なトラッカーを設計します。初めて、単一のV100GPUで30FPSの実行速度でMOT17のテストセットで80.3MOTA、77.3 IDF1、および63.1HOTAを達成しました。ソースコード、デプロイバージョンを含む事前トレーニング済みモデル、および他のトラッカーに適用するためのチュートリアルは、https://github.com/ifzhang/ByteTrackでリリースされています。
Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods obtain identities by associating detection boxes whose scores are higher than a threshold. The objects with low detection scores, e.g. occluded objects, are simply thrown away, which brings non-negligible true object missing and fragmented trajectories. To solve this problem, we present a simple, effective and generic association method, called BYTE, tracking BY associaTing Every detection box instead of only the high score ones. For the low score detection boxes, we utilize their similarities with tracklets to recover true objects and filter out the background detections. We apply BYTE to 9 different state-of-the-art trackers and achieve consistent improvement on IDF1 score ranging from 1 to 10 points. To put forwards the state-of-the-art performance of MOT, we design a simple and strong tracker, named ByteTrack. For the first time, we achieve 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU. The source code, pre-trained models with deploy versions and tutorials of applying to other trackers are released at https://github.com/ifzhang/ByteTrack.