複数物体追跡 (MOT) は、自動運転車の認識にとって重要です。オブジェクトの検出と追跡を同時に行うエンドツーエンドのトランスフォーマー ベースのアルゴリズムは、MOT タスクに大きな可能性を示します。ただし、既存の方法のほとんどは、単一のオブジェクト カテゴリを使用した画像ベースの追跡に焦点を当てています。この論文では、複数のクラスを持つオブジェクトを追跡するための、マルチモダリティ センサー入力を備えたエンドツーエンドのトランスフォーマー ベースの MOT アルゴリズム (MotionTrack) を提案します。私たちの目的は、自動運転環境における MOT の変圧器ベースラインを確立することです。提案されたアルゴリズムは、トランスフォーマーベースのデータ関連付け (DA) モジュールとトランスフォーマーベースのクエリ強化モジュールで構成され、MOT と複数オブジェクト検出 (MOD) を同時に実現します。 MotionTrack とそのバリエーションは、AB3DMOT、CenterTrack、確率的 3D カルマン フィルターなどの他の古典的なベースライン モデルと比較して、nuScenes データセットでより良い結果 (AMOTA スコア 0.55) を達成します。さらに、修正されたアテンション メカニズムを DA に利用して MOT を達成し、履歴機能を集約して MOD のパフォーマンスを向上できることを証明します。
Multiple Object Tracking (MOT) is crucial to autonomous vehicle perception. End-to-end transformer-based algorithms, which detect and track objects simultaneously, show great potential for the MOT task. However, most existing methods focus on image-based tracking with a single object category. In this paper, we propose an end-to-end transformer-based MOT algorithm (MotionTrack) with multi-modality sensor inputs to track objects with multiple classes. Our objective is to establish a transformer baseline for the MOT in an autonomous driving environment. The proposed algorithm consists of a transformer-based data association (DA) module and a transformer-based query enhancement module to achieve MOT and Multiple Object Detection (MOD) simultaneously. The MotionTrack and its variations achieve better results (AMOTA score at 0.55) on the nuScenes dataset compared with other classical baseline models, such as the AB3DMOT, the CenterTrack, and the probabilistic 3D Kalman filter. In addition, we prove that a modified attention mechanism can be utilized for DA to accomplish the MOT, and aggregate history features to enhance the MOD performance.