近年の大幅な進歩にも関わらず、複数オブジェクト追跡 (MOT) アプローチには依然としていくつかの制限があります。たとえば、追跡ターゲットの事前知識に依存するため、大規模なラベル付きデータセットへのコストのかかるアノテーションが必要になります。その結果、既存の MOT 手法は、事前に定義された少数のカテゴリに限定されており、現実世界の目に見えないオブジェクトを処理するのに苦労しています。これらの問題に対処するために、ターゲットに関する事前情報をあまり必要としない汎用複数オブジェクト追跡 (GMOT) が提案されています。しかし、既存のすべての GMOT アプローチはワンショット パラダイムに従っており、主に初期バウンディング ボックスに依存しているため、視点、ライティング、オクルージョン、スケールなどのバリアントを処理するのに苦労しています。この論文では、これに対処するための新しいアプローチを紹介します。既存のMOTおよびGMOT手法の限界。具体的には、事前定義されたカテゴリや最初の境界ボックスを必要とせず、ゼロのトレーニング サンプルで見たことのないオブジェクト カテゴリを追跡できるゼロショット GMOT (Z-GMOT) アルゴリズムを提案します。これを達成するために、私たちは、誤検知を最小限に抑えながら目に見えないオブジェクトを検出できる、Grounded language-image pretraining (GLIP) の改良版である iGLIP を提案します。当社は、GMOT-40 データセット、AnimalTrack テストセット、DanceTrack テストセットに基づいて Z-GMOT を徹底的に評価します。これらの評価の結果は、既存の方法に比べて大幅な改善が見られることを示しています。たとえば、GMOT-40 データセットでは、Z-GMOT は OC-SORT を使用したワンショット GMOT よりも HOTA で 27.79 ポイント、MOTA で 44.37 ポイント優れています。 AnimalTrack データセットでは、DeepSORT による完全教師あり手法を HOTA で 12.55 ポイント、MOTA で 8.97 ポイント上回っています。さらなる研究を促進するために、この論文が受理され次第、コードとモデルを公開します。
Despite the significant progress made in recent years, Multi-Object Tracking (MOT) approaches still suffer from several limitations, including their reliance on prior knowledge of tracking targets, which necessitates the costly annotation of large labeled datasets. As a result, existing MOT methods are limited to a small set of predefined categories, and they struggle with unseen objects in the real world. To address these issues, Generic Multiple Object Tracking (GMOT) has been proposed, which requires less prior information about the targets. However, all existing GMOT approaches follow a one-shot paradigm, relying mainly on the initial bounding box and thus struggling to handle variants e.g., viewpoint, lighting, occlusion, scale, and etc. In this paper, we introduce a novel approach to address the limitations of existing MOT and GMOT methods. Specifically, we propose a zero-shot GMOT (Z-GMOT) algorithm that can track never-seen object categories with zero training examples, without the need for predefined categories or an initial bounding box. To achieve this, we propose iGLIP, an improved version of Grounded language-image pretraining (GLIP), which can detect unseen objects while minimizing false positives. We evaluate our Z-GMOT thoroughly on the GMOT-40 dataset, AnimalTrack testset, DanceTrack testset. The results of these evaluations demonstrate a significant improvement over existing methods. For instance, on the GMOT-40 dataset, the Z-GMOT outperforms one-shot GMOT with OC-SORT by 27.79 points HOTA and 44.37 points MOTA. On the AnimalTrack dataset, it surpasses fully-supervised methods with DeepSORT by 12.55 points HOTA and 8.97 points MOTA. To facilitate further research, we will make our code and models publicly available upon acceptance of this paper.