マルチオブジェクトトラッキング(MOT)の最近の傾向は、ディープラーニングを活用してトラッキングパフォーマンスを向上させる方向に向かっています。この論文では、TransSTAMという名前の新しいソリューションを提案します。これは、Transformerを活用して、各オブジェクトの外観の特徴とオブジェクト間の時空間関係の両方を効果的にモデル化します。 TransSTAMは、次の2つの主要部分で構成されています。(1)エンコーダーは、Transformerの強力な自己注意メカニズムを利用して、各トラックレットの識別機能を学習します。 (2)デコーダーは、標準のクロスアテンションメカニズムを採用して、時空間機能と外観機能の両方を考慮に入れて、トラックレットと検出の間の親和性をモデル化します。 TransSTAMには、次の2つの大きな利点があります。(1)エンコーダ-デコーダアーキテクチャのみに基づいており、コンパクトなネットワーク設計を備えているため、計算効率が高くなります。 (2)1つのモデル内で時空間および外観の特徴を効果的に学習できるため、追跡精度が向上します。提案された方法は、MOT16、MOT17、およびMOT20を含む複数の公開ベンチマークで評価され、すべてのベンチマークでの以前の最先端のアプローチと比較して、IDF1とHOTAの両方で明確なパフォーマンスの向上を実現します。私たちのコードはhttps://github.com/icicle4/TranSTAMで入手できます。
The recent trend in multiple object tracking (MOT) is heading towards leveraging deep learning to boost the tracking performance. In this paper, we propose a novel solution named TransSTAM, which leverages Transformer to effectively model both the appearance features of each object and the spatial-temporal relationships among objects. TransSTAM consists of two major parts: (1) The encoder utilizes the powerful self-attention mechanism of Transformer to learn discriminative features for each tracklet; (2) The decoder adopts the standard cross-attention mechanism to model the affinities between the tracklets and the detections by taking both spatial-temporal and appearance features into account. TransSTAM has two major advantages: (1) It is solely based on the encoder-decoder architecture and enjoys a compact network design, hence being computationally efficient; (2) It can effectively learn spatial-temporal and appearance features within one model, hence achieving better tracking accuracy. The proposed method is evaluated on multiple public benchmarks including MOT16, MOT17, and MOT20, and it achieves a clear performance improvement in both IDF1 and HOTA with respect to previous state-of-the-art approaches on all the benchmarks. Our code is available at https://github.com/icicle4/TranSTAM.