arXiv reaDer
CFTrack:3Dマルチオブジェクトトラッキング用のセンターベースのレーダーとカメラの融合
CFTrack: Center-based Radar and Camera Fusion for 3D Multi-Object Tracking
3Dマルチオブジェクトトラッキングは、自動運転車の知覚システムにおける重要なコンポーネントです。車両周辺のすべての動的オブジェクトを追跡することは、障害物の回避や経路計画などのタスクに不可欠です。自動運転車は通常、精度と信頼性を向上させるためにさまざまなセンサーモダリティを備えています。センサーフュージョンは近年、オブジェクト検出ネットワークで広く使用されていますが、既存のマルチオブジェクトトラッキングアルゴリズムのほとんどは、単一の入力モダリティに依存しているか、複数のセンシングモダリティによって提供される情報を十分に活用していません。この作業では、レーダーとカメラセンサーの融合に基づく共同物体検出と追跡のためのエンドツーエンドネットワークを提案します。我々の提案する方法は、物体検出のために中心ベースのレーダーカメラ融合アルゴリズムを使用し、物体の関連付けのために欲張りアルゴリズムを利用します。提案された欲張りアルゴリズムは、検出されたオブジェクトの深さ、速度、および2D変位を使用して、時間の経過とともにそれらを関連付けます。これにより、深度と速度の情報がネットワークでオブジェクトを区別するのに役立つため、追跡アルゴリズムは、遮蔽されたオブジェクトや重なり合ったオブジェクトに対して非常に堅牢になります。挑戦的なnuScenesデータセットでメソッドを評価します。このデータセットでは、20.0 AMOTAを達成し、ベンチマークのすべてのビジョンベースの3Dトラッキングメソッド、およびベースラインのLiDARベースのメソッドよりも優れています。私たちの方法は、画像あたり35ミリ秒の実行時間でオンラインであり、自動運転アプリケーションに非常に適しています。
3D multi-object tracking is a crucial component in the perception system of autonomous driving vehicles. Tracking all dynamic objects around the vehicle is essential for tasks such as obstacle avoidance and path planning. Autonomous vehicles are usually equipped with different sensor modalities to improve accuracy and reliability. While sensor fusion has been widely used in object detection networks in recent years, most existing multi-object tracking algorithms either rely on a single input modality, or do not fully exploit the information provided by multiple sensing modalities. In this work, we propose an end-to-end network for joint object detection and tracking based on radar and camera sensor fusion. Our proposed method uses a center-based radar-camera fusion algorithm for object detection and utilizes a greedy algorithm for object association. The proposed greedy algorithm uses the depth, velocity and 2D displacement of the detected objects to associate them through time. This makes our tracking algorithm very robust to occluded and overlapping objects, as the depth and velocity information can help the network in distinguishing them. We evaluate our method on the challenging nuScenes dataset, where it achieves 20.0 AMOTA and outperforms all vision-based 3D tracking methods in the benchmark, as well as the baseline LiDAR-based method. Our method is online with a runtime of 35ms per image, making it very suitable for autonomous driving applications.
updated: Sun Jul 11 2021 23:56:53 GMT+0000 (UTC)
published: Sun Jul 11 2021 23:56:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト