arXiv reaDer
LiDARを使用しないBEV認識の単純なベースライン
A Simple Baseline for BEV Perception Without LiDAR
LiDARに依存しない自動運転車用の3D知覚システムを構築することは、カメラや他のセンサーと比較してLiDARシステムのコストが高いため、重要な研究課題です。現在の方法では、車両周辺のカメラから収集されたマルチビューRGBデータを使用し、遠近法画像から2D地面に神経的に「リフト」機能を使用して、車両周辺の3D空間の「鳥瞰図」(BEV)機能表現を生成します。最近の研究は、特徴が画像からBEV平面に持ち上げられる方法に焦点を合わせています。代わりに、単純なベースラインモデルを提案します。このモデルでは、「リフティング」ステップがすべての投影画像位置からの特徴を単純に平均化し、BEV車両セグメンテーションの現在の最先端を上回っていることを確認します。私たちのアブレーションは、バッチサイズ、データ拡張、および入力解像度がパフォーマンスに大きな役割を果たしていることを示しています。さらに、レーダー入力の有用性を再考します。これは、以前は無視されていたか、最近の作業では役に立たなかったものです。シンプルなRGBレーダー融合モジュールを使用すると、パフォーマンスが大幅に向上し、LiDAR対応システムの精度に近づきます。
Building 3D perception systems for autonomous vehicles that do not rely on LiDAR is a critical research problem because of the high expense of LiDAR systems compared to cameras and other sensors. Current methods use multi-view RGB data collected from cameras around the vehicle and neurally "lift" features from the perspective images to the 2D ground plane, yielding a "bird's eye view" (BEV) feature representation of the 3D space around the vehicle. Recent research focuses on the way the features are lifted from images to the BEV plane. We instead propose a simple baseline model, where the "lifting" step simply averages features from all projected image locations, and find that it outperforms the current state-of-the-art in BEV vehicle segmentation. Our ablations show that batch size, data augmentation, and input resolution play a large part in performance. Additionally, we reconsider the utility of radar input, which has previously been either ignored or found non-helpful by recent works. With a simple RGB-radar fusion module, we obtain a sizable boost in performance, approaching the accuracy of a LiDAR-enabled system.
updated: Thu Jun 16 2022 06:57:32 GMT+0000 (UTC)
published: Thu Jun 16 2022 06:57:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト