arXiv reaDer
Simple-BEV: マルチセンサー BEV 知覚にとって本当に重要なことは何ですか?
Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?
高密度 LiDAR に依存しない自動運転車用の 3D 認識システムの構築は、カメラや他のセンサーと比較して LiDAR システムの費用がかかるため、重要な研究課題です。最近の研究では、さまざまなカメラのみの方法が開発されました。この方法では、特徴がマルチカメラ画像から 2D グラウンド プレーンに差別的に「リフト」され、車両の周囲の 3D 空間の「鳥瞰図」(BEV) 特徴表現が得られます。 .この一連の作業により、さまざまな斬新な「リフティング」方法が生み出されましたが、トレーニング設定の他の詳細が同時に変化し、最高のパフォーマンスを発揮する方法で何が本当に重要なのかが不明確になっていることがわかりました.また、レーダーなどの追加センサーがすでに何年も前から実際の車両に組み込まれていることを考えると、カメラだけを使用することは現実世界の制約ではありません。この論文では、まず第一に、BEV 知覚モデルの設計とトレーニング プロトコルにおける影響の大きい要因を解明しようとします。バッチサイズと入力解像度がパフォーマンスに大きく影響する一方で、リフティング戦略の効果はより控えめであることがわかりました。単純なパラメーターのないリフターでもうまく機能します。次に、レーダー データがパフォーマンスを大幅に向上させ、カメラのみのシステムと LiDAR 対応システムとのギャップを埋めることができることを実証します。優れたパフォーマンスにつながるレーダーの使用状況の詳細を分析し、センサー プラットフォームのこの一般的に無視されている部分を再検討するようコミュニティに呼びかけます。
Building 3D perception systems for autonomous vehicles that do not rely on high-density LiDAR is a critical research problem because of the expense of LiDAR systems compared to cameras and other sensors. Recent research has developed a variety of camera-only methods, where features are differentiably "lifted" from the multi-camera images onto the 2D ground plane, yielding a "bird's eye view" (BEV) feature representation of the 3D space around the vehicle. This line of work has produced a variety of novel "lifting" methods, but we observe that other details in the training setups have shifted at the same time, making it unclear what really matters in top-performing methods. We also observe that using cameras alone is not a real-world constraint, considering that additional sensors like radar have been integrated into real vehicles for years already. In this paper, we first of all attempt to elucidate the high-impact factors in the design and training protocol of BEV perception models. We find that batch size and input resolution greatly affect performance, while lifting strategies have a more modest effect -- even a simple parameter-free lifter works well. Second, we demonstrate that radar data can provide a substantial boost to performance, helping to close the gap between camera-only and LiDAR-enabled systems. We analyze the radar usage details that lead to good performance, and invite the community to re-consider this commonly-neglected part of the sensor platform.
updated: Thu Sep 29 2022 23:14:58 GMT+0000 (UTC)
published: Thu Jun 16 2022 06:57:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト