Transformerネットワークは、導入されて以来、さまざまなタスクに対して非常に強力であることが証明されています。変圧器の使用は近年ビジョンコミュニティで非常に人気が高まっているため、コンピュータビジョンも例外ではありません。この波にもかかわらず、マルチオブジェクトトラッキング(MOT)は、今のところ、トランスフォーマーとのある種の非互換性を示しています。標準表現(スパースクエリが不十分な境界ボックス)は、MOTのトランスフォーマーを学習するのに最適ではないと主張します。最近の研究に触発されて、高密度ヒートマップ予測のための最初の変圧器ベースのMOTアーキテクチャであるTransCenterを提案します。方法論的には、トランスフォーマーデュアルデコーダーネットワークで高密度ピクセルレベルのマルチスケールクエリを使用して、ターゲットの中心のヒートマップをグローバルかつ堅牢に推測し、時間の経過とともに関連付けることができるようにすることを提案します。 TransCenterは、MOT17とMOT20の両方で、標準ベンチマークの現在の最先端を上回っています。私たちのアブレーション研究は、より素朴な代替案と比較して、提案されたアーキテクチャの利点を示しています。コードはhttps://github.com/yihongxu/transcenterで公開されます。
Transformer networks have proven extremely powerful for a wide variety of tasks since they were introduced. Computer vision is not an exception, as the use of transformers has become very popular in the vision community in recent years. Despite this wave, multiple-object tracking (MOT) exhibits for now some sort of incompatibility with transformers. We argue that the standard representation - bounding boxes with insufficient sparse queries - is not optimal to learning transformers for MOT. Inspired by recent research, we propose TransCenter, the first transformer-based MOT architecture for dense heatmap predictions. Methodologically, we propose the use of dense pixel-level multi-scale queries in a transformer dual-decoder network, to be able to globally and robustly infer the heatmap of targets' centers and associate them through time. TransCenter outperforms the current state-of-the-art in standard benchmarks both in MOT17 and MOT20. Our ablation study demonstrates the advantage in the proposed architecture compared to more naive alternatives. The code will be made publicly available at https://github.com/yihongxu/transcenter.