ビデオタスクとして、複数オブジェクト追跡 (MOT) はターゲットの時間情報を効果的にキャプチャーすることが期待されています。残念なことに、既存の方法のほとんどは、隣接するフレーム間のオブジェクトの特徴を明示的に利用するだけであり、長期の時間情報をモデル化する能力が欠けています。この論文では、複数のオブジェクトを追跡するための長期メモリ拡張トランスフォーマーである MeMOTR を提案します。私たちの方法では、カスタマイズされたメモリ アテンション レイヤーによる長期メモリ インジェクションを活用することで、同じオブジェクトのトラックの埋め込みをより安定させ、区別しやすくすることができます。これにより、モデルのターゲット関連付け能力が大幅に向上します。 DanceTrack の実験結果では、MeMOTR が HOTA メトリクスと AssA メトリクスでそれぞれ 7.9% と 13.0% も最先端の方法を見事に上回っていることが示されています。さらに、私たちのモデルは、MOT17 でのアソシエーション パフォーマンスにおいて他の Transformer ベースの手法よりも優れており、BDD100K で良好に一般化します。コードは https://github.com/MCG-NJU/MeMOTR で入手できます。
As a video task, Multiple Object Tracking (MOT) is expected to capture temporal information of targets effectively. Unfortunately, most existing methods only explicitly exploit the object features between adjacent frames, while lacking the capacity to model long-term temporal information. In this paper, we propose MeMOTR, a long-term memory-augmented Transformer for multi-object tracking. Our method is able to make the same object's track embedding more stable and distinguishable by leveraging long-term memory injection with a customized memory-attention layer. This significantly improves the target association ability of our model. Experimental results on DanceTrack show that MeMOTR impressively surpasses the state-of-the-art method by 7.9% and 13.0% on HOTA and AssA metrics, respectively. Furthermore, our model also outperforms other Transformer-based methods on association performance on MOT17 and generalizes well on BDD100K. Code is available at https://github.com/MCG-NJU/MeMOTR.