信頼性が高く正確な3D追跡フレームワークは、周囲のオブジェクトの将来の位置を予測し、自動運転などの多数のアプリケーションでのオブザーバーの行動を計画するために不可欠です。時間の経過とともに移動するオブジェクトを効果的に関連付け、移動するプラットフォームでキャプチャされた一連の2D画像から完全な3Dバウンディングボックス情報を推定できるフレームワークを提案します。オブジェクトの関連付けは、準高密度の類似性学習を活用して、外観の手がかりのみを使用してさまざまなポーズや視点のオブジェクトを識別します。最初の2D関連付けの後、さらに3Dバウンディングボックスの深度順序付けヒューリスティックを利用して、堅牢なインスタンスの関連付けと、閉塞した車両の再識別のためのモーションベースの3D軌道予測を行います。最終的に、LSTMベースのオブジェクト速度学習モジュールは、より正確なモーション外挿のために長期軌道情報を集約します。提案されたシミュレーションデータと、KITTI、nuScenes、Waymoデータセットなどの実際のベンチマークでの実験は、追跡フレームワークが堅牢なオブジェクトの関連付けと都市運転シナリオでの追跡を提供することを示しています。 Waymo Openベンチマークでは、3Dトラッキングと3D検出の課題で最初のカメラのみのベースラインを確立します。当社の準高密度3D追跡パイプラインは、公開されているすべての方法の中で最高の視覚のみの提出のほぼ5倍の追跡精度で、nuScenes3D追跡ベンチマークの印象的な改善を実現します。コード、データ、トレーニング済みモデルはhttps://github.com/SysCV/qd-3dtで入手できます。
A reliable and accurate 3D tracking framework is essential for predicting future locations of surrounding objects and planning the observer's actions in numerous applications such as autonomous driving. We propose a framework that can effectively associate moving objects over time and estimate their full 3D bounding box information from a sequence of 2D images captured on a moving platform. The object association leverages quasi-dense similarity learning to identify objects in various poses and viewpoints with appearance cues only. After initial 2D association, we further utilize 3D bounding boxes depth-ordering heuristics for robust instance association and motion-based 3D trajectory prediction for re-identification of occluded vehicles. In the end, an LSTM-based object velocity learning module aggregates the long-term trajectory information for more accurate motion extrapolation. Experiments on our proposed simulation data and real-world benchmarks, including KITTI, nuScenes, and Waymo datasets, show that our tracking framework offers robust object association and tracking on urban-driving scenarios. On the Waymo Open benchmark, we establish the first camera-only baseline in the 3D tracking and 3D detection challenges. Our quasi-dense 3D tracking pipeline achieves impressive improvements on the nuScenes 3D tracking benchmark with near five times tracking accuracy of the best vision-only submission among all published methods. Our code, data and trained models are available at https://github.com/SysCV/qd-3dt.