arXiv reaDer
BEVDet:鳥瞰図での高性能マルチカメラ3Dオブジェクト検出
BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View
自動運転は、視覚の最も複雑なシーンの1つである、意思決定のために周囲の環境を認識します。 2Dオブジェクト検出タスクを解決する際のパラダイム革新の大きな力は、この領域のパフォーマンスの限界を押し上げるための、エレガントで実行可能でスケーラブルなパラダイムを探すように促します。この目的のために、このペーパーではBEVDetパラダイムに貢献します。 BEVDetは、経路計画を簡単に実行できる鳥瞰図(BEV)で3Dオブジェクトを検出するという原則に従って開発されています。このパラダイムでは、4種類のモジュールが、異なる役割で連続して実行されます。画像ビューで機能をエンコードするための画像ビューエンコーダ、画像ビューからBEVに機能を変換するためのビュートランスフォーマ、BEVで機能をさらにエンコードするためのBEVエンコーダ、 BEVのターゲットを予測するためのタスク固有のヘッド。 BEVDetを構築するために既存のモジュールを再利用するだけで、排他的なデータ拡張戦略を構築することにより、マルチカメラ3Dオブジェクト検出を実現可能にします。提案されたパラダイムは、マルチカメラ3Dオブジェクト検出でうまく機能し、コンピューティングの予算とパフォーマンスの間の適切なトレードオフを提供します。 704x256(競合他社の1/8)の画像サイズのBEVDetは、nuScenes valセットで29.4%mAPおよび38.4%NDSを記録します。これは、FCOS3D(つまり、2008.2 GFLOP、1.7 FPS、29.5%mAP、および37.2%NDS)に匹敵します。 239.4 GFLOPの12%のコンピューティングバジェットが必要であり、4.3倍高速に実行されます。入力サイズを1408x512にスケールアップすると、BEVDetのスコアは34.9%mAP、41.7%NDSになります。これには、601.4 GFLOPが必要であり、FCOS3Dを5.4%mAPと4.5%NDSだけ大幅に抑制します。 BEVDetの優れたパフォーマンスは、パラダイム革新の魔法を物語っています。
Autonomous driving perceives the surrounding environment for decision making, which is one of the most complicated scenes for visual perception. The great power of paradigm innovation in solving the 2D object detection task inspires us to seek an elegant, feasible, and scalable paradigm for pushing the performance boundary in this area. To this end, we contribute the BEVDet paradigm in this paper. BEVDet is developed by following the principle of detecting the 3D objects in Bird-Eye-View (BEV), where route planning can be handily performed. In this paradigm, four kinds of modules are conducted in succession with different roles: an image-view encoder for encoding feature in image view, a view transformer for feature transformation from image view to BEV, a BEV encoder for further encoding feature in BEV, and a task-specific head for predicting the targets in BEV. We merely reuse the existing modules for constructing BEVDet and make it feasible for multi-camera 3D object detection by constructing an exclusive data augmentation strategy. The proposed paradigm works well in multi-camera 3D object detection and offers a good trade-off between computing budget and performance. BEVDet with 704x256 (1/8 of the competitors) image size scores 29.4% mAP and 38.4% NDS on the nuScenes val set, which is comparable with FCOS3D (i.e., 2008.2 GFLOPs, 1.7 FPS, 29.5% mAP and 37.2% NDS), while requires merely 12% computing budget of 239.4 GFLOPs and runs 4.3 times faster. Scaling up the input size to 1408x512, BEVDet scores 34.9% mAP, and 41.7% NDS, which requires just 601.4 GFLOPs and significantly suppresses FCOS3D by 5.4% mAP and 4.5% NDS. The superior performance of BEVDet tells the magic of paradigm innovation.
updated: Wed Dec 22 2021 10:48:06 GMT+0000 (UTC)
published: Wed Dec 22 2021 10:48:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト