3D ポイント クラウド内の複数のオブジェクトを共同で検出および追跡する方法を提案します。このタスクは、従来、オブジェクト検出とそれに続くデータ関連付けを含む 2 段階のプロセスとして扱われていました。私たちの方法は、両方のステップを単一のエンドツーエンドのトレーニング可能なネットワークに組み込み、外部オブジェクト検出器への依存を排除します。私たちのモデルは、複数のフレームを使用してオブジェクトを検出し、単一のネットワークでそれらを追跡する時間情報を活用するため、現実世界のシナリオの実用的な定式化になります。連続する点群スキャン全体で特徴の類似性を使用してアフィニティ マトリックスを計算することは、ビジュアル トラッキングの不可欠な部分を形成します。誤った対応を抑制することによってアフィニティマトリックスを改良するために、注意ベースの改良モジュールを提案します。このモジュールは、各アフィニティ マトリックス内で自己注意を使用し、アフィニティ マトリックスのペア全体で相互注意を使用することにより、アフィニティ マトリックスでグローバル コンテキストをキャプチャするように設計されています。競合するアプローチとは異なり、当社のネットワークは複雑な後処理アルゴリズムを必要とせず、生の LiDAR フレームを処理して追跡結果を直接出力します。 JRDB、Waymo、KITTI の 3 つのトラッキング ベンチマークで、この方法の有効性を実証します。実験的評価は、モデルがデータセット全体でうまく一般化できることを示しています。
We propose a method for joint detection and tracking of multiple objects in 3D point clouds, a task conventionally treated as a two-step process comprising object detection followed by data association. Our method embeds both steps into a single end-to-end trainable network eliminating the dependency on external object detectors. Our model exploits temporal information employing multiple frames to detect objects and track them in a single network, thereby making it a utilitarian formulation for real-world scenarios. Computing affinity matrix by employing features similarity across consecutive point cloud scans forms an integral part of visual tracking. We propose an attention-based refinement module to refine the affinity matrix by suppressing erroneous correspondences. The module is designed to capture the global context in affinity matrix by employing self-attention within each affinity matrix and cross-attention across a pair of affinity matrices. Unlike competing approaches, our network does not require complex post-processing algorithms, and processes raw LiDAR frames to directly output tracking results. We demonstrate the effectiveness of our method on the three tracking benchmarks: JRDB, Waymo, and KITTI. Experimental evaluations indicate the ability of our model to generalize well across datasets.