トランスフォーマーは、導入以来、さまざまなタスクで優れたパフォーマンスを発揮することが証明されており、近年、画像分類や物体検出などの取り組みが行われているビジョンコミュニティの注目を集めています。この波にもかかわらず、変圧器を使用して正確で効率的な複数オブジェクト追跡(MOT)メソッドを構築することは、簡単な作業ではありません。二次の複雑さと不十分なノイズで初期化されたスパースクエリを備えたトランスアーキテクチャの直接適用は、MOTには最適ではないと主張します。最近の研究に触発されて、妥当な実行時間を維持しながらすべてのオブジェクトを正確に追跡するための高密度表現を備えたトランスベースのMOTアーキテクチャであるTransCenterを提案します。方法論的には、効率的なトランスアーキテクチャによって生成された高密度の画像関連のマルチスケール検出クエリの使用を提案します。クエリを使用すると、高密度のヒートマップ出力からターゲットの場所をグローバルかつ堅牢に推測できます。並行して、TransCenter Decoderの画像機能と相互作用して、時間の経過とともにオブジェクトの位置を関連付ける一連の効率的なスパーストラッキングクエリ。 TransCenterは、2つの追跡(パブリック/プライベート)設定を備えた2つの標準MOTベンチマークで、パフォーマンスが大幅に向上し、現在の最先端技術を大幅に上回っています。 MOTに提案された効率的で正確な変圧器アーキテクチャは、広範なアブレーション研究で証明されており、より単純な代替案や同時作業と比較した場合の利点が実証されています。コードはhttps://github.com/yihongxu/transcenterで公開されます。
Transformers have proven superior performance for a wide variety of tasks since they were introduced, which has drawn in recent years the attention of the vision community where efforts were made such as image classification and object detection. Despite this wave, building an accurate and efficient multiple-object tracking (MOT) method with transformers is not a trivial task. We argue that the direct application of a transformer architecture with quadratic complexity and insufficient noise-initialized sparse queries -- is not optimal for MOT. Inspired by recent research, we propose TransCenter, a transformer-based MOT architecture with dense representations for accurately tracking all the objects while keeping a reasonable runtime. Methodologically, we propose the use of dense image-related multi-scale detection queries produced by an efficient transformer architecture. The queries allow inferring targets' locations globally and robustly from dense heatmap outputs. In parallel, a set of efficient sparse tracking queries interacting with image features in the TransCenter Decoder to associate object positions through time. TransCenter exhibits remarkable performance improvements and outperforms by a large margin the current state-of-the-art in two standard MOT benchmarks with two tracking (public/private) settings. The proposed efficient and accurate transformer architecture for MOT is proven with an extensive ablation study, demonstrating its advantage compared to more naive alternatives and concurrent works. The code will be made publicly available at https://github.com/yihongxu/transcenter.