arXiv reaDer
MetaBEV: BEV 検出とマップ セグメンテーションのためのセンサー障害の解決
MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation
最新の自動運転車両の認識システムは、通常、LiDAR やカメラなどの補完的なマルチモーダル センサーから入力を受け取ります。ただし、実際のアプリケーションでは、センサーの破損や障害がパフォーマンスの低下につながり、自律的な安全性が損なわれます。この論文では、MetaBEV と呼ばれる堅牢なフレームワークを提案し、全体で 6 つのセンサー破損と 2 つの極端なセンサー欠落状況を含む極端な現実世界の環境に対処します。 MetaBEV では、複数のセンサーからの信号は、最初にモーダル固有のエンコーダーによって処理されます。続いて、メタ BEV と呼ばれる一連の密な BEV クエリが初期化されます。これらのクエリは、BEV-Evolving デコーダーによって反復的に処理されます。このデコーダーは、LiDAR、カメラ、または両方のモダリティから深い特徴を選択的に集約します。更新された BEV 表現は、複数の 3D 予測タスクにさらに活用されます。さらに、マルチタスク共同学習における個別のタスクのパフォーマンス低下を軽減するために、新しい M2oE 構造を導入します。最後に、3D オブジェクト検出と BEV マップ セグメンテーション タスクを使用して、nuScenes データセットで MetaBEV が評価されます。実験では、MetaBEV が完全なモダリティと破損したモダリティの両方で先行技術よりも大幅に優れていることが示されています。たとえば、LiDAR 信号が欠落している場合、MetaBEV は標準の BEVFusion モデルで 35.5% の検出 NDS と 17.7% のセグメンテーション mIoU を改善します。カメラ信号がない場合でも、MetaBEV は 69.2% の NDS と 53.7% の mIoU を達成します。さらに、MetaBEV は標準的な認識とマルチタスク学習設定の両方で以前の方法に対してかなりのパフォーマンスを発揮し、最先端の nuScenes BEV マップ セグメンテーションを 70.4% mIoU で更新します。
Perception systems in modern autonomous driving vehicles typically take inputs from complementary multi-modal sensors, e.g., LiDAR and cameras. However, in real-world applications, sensor corruptions and failures lead to inferior performances, thus compromising autonomous safety. In this paper, we propose a robust framework, called MetaBEV, to address extreme real-world environments involving overall six sensor corruptions and two extreme sensor-missing situations. In MetaBEV, signals from multiple sensors are first processed by modal-specific encoders. Subsequently, a set of dense BEV queries are initialized, termed meta-BEV. These queries are then processed iteratively by a BEV-Evolving decoder, which selectively aggregates deep features from either LiDAR, cameras, or both modalities. The updated BEV representations are further leveraged for multiple 3D prediction tasks. Additionally, we introduce a new M2oE structure to alleviate the performance drop on distinct tasks in multi-task joint learning. Finally, MetaBEV is evaluated on the nuScenes dataset with 3D object detection and BEV map segmentation tasks. Experiments show MetaBEV outperforms prior arts by a large margin on both full and corrupted modalities. For instance, when the LiDAR signal is missing, MetaBEV improves 35.5% detection NDS and 17.7% segmentation mIoU upon the vanilla BEVFusion model; and when the camera signal is absent, MetaBEV still achieves 69.2% NDS and 53.7% mIoU, which is even higher than previous works that perform on full-modalities. Moreover, MetaBEV performs fairly against previous methods in both canonical perception and multi-task learning settings, refreshing state-of-the-art nuScenes BEV map segmentation with 70.4% mIoU.
updated: Wed Apr 19 2023 16:37:17 GMT+0000 (UTC)
published: Wed Apr 19 2023 16:37:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト