3D オブジェクト検出は、自動運転において環境を理解するために不可欠な認識タスクです。鳥瞰図 (BEV) 表現は、一般的なベンチマークでカメラ入力を使用した 3D 検出器のパフォーマンスを大幅に改善しました。しかし、自動運転システムの安全性と密接に関連するこれらの視覚依存BEVモデルの堅牢性については、まだ体系的な理解が不足しています。このホワイト ペーパーでは、BEV のないモデルと比較して、明示的な BEV 機能の影響を受けるモデルの動作を完全に理解するために、広範な設定の下でさまざまな代表的なモデルの自然で敵対的なロバスト性を評価します。従来の設定に加えて、3D 空間に敵対的パッチを適用して時空間的一貫性を保証する 3D 一貫性パッチ攻撃を提案します。これは、自動運転のシナリオにとってより現実的です。実質的な実験により、いくつかの調査結果が得られました。1) BEV モデルは、表現力豊かな空間表現により、さまざまな自然条件や一般的な破損の下で、以前の方法よりも安定する傾向があります。 2) BEV モデルは、主に冗長な BEV 機能によって引き起こされる、敵対的なノイズに対してより脆弱です。 3) カメラ-LiDAR 融合モデルは、マルチモーダル入力を使用したさまざまな設定で優れたパフォーマンスを発揮しますが、BEV 融合モデルは点群と画像の両方の敵対的ノイズに対して依然として脆弱です。これらの調査結果は、BEV 検出器のアプリケーションにおける安全性の問題を警告し、より堅牢なモデルの開発を促進する可能性があります。
3D object detection is an essential perception task in autonomous driving to understand the environments. The Bird's-Eye-View (BEV) representations have significantly improved the performance of 3D detectors with camera inputs on popular benchmarks. However, there still lacks a systematic understanding of the robustness of these vision-dependent BEV models, which is closely related to the safety of autonomous driving systems. In this paper, we evaluate the natural and adversarial robustness of various representative models under extensive settings, to fully understand their behaviors influenced by explicit BEV features compared with those without BEV. In addition to the classic settings, we propose a 3D consistent patch attack by applying adversarial patches in the 3D space to guarantee the spatiotemporal consistency, which is more realistic for the scenario of autonomous driving. With substantial experiments, we draw several findings: 1) BEV models tend to be more stable than previous methods under different natural conditions and common corruptions due to the expressive spatial representations; 2) BEV models are more vulnerable to adversarial noises, mainly caused by the redundant BEV features; 3) Camera-LiDAR fusion models have superior performance under different settings with multi-modal inputs, but BEV fusion model is still vulnerable to adversarial noises of both point cloud and image. These findings alert the safety issue in the applications of BEV detectors and could facilitate the development of more robust models.