arXiv reaDer
BEVDepth:マルチビュー3Dオブジェクト検出のための信頼できる深度の取得
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection
この研究では、カメラベースのBird's-Eye-View(BEV)3Dオブジェクト検出用に、信頼できる深度推定を備えた新しい3Dオブジェクト検出器(BEVDepthと呼ばれる)を提案します。最近のアプローチを徹底的に分析することにより、深度推定はカメラ情報なしで暗黙的に学習され、次の疑似点群を作成するための事実上の偽の深度になっていることがわかります。 BEVDepthは、エンコードされた内因性および外因性パラメーターを利用して、明示的な深度監視を取得します。深さ補正サブネットワークは、深さのグラウンドトゥルースにおける投影によって引き起こされる妨害を打ち消すためにさらに導入されます。推定深度を使用して画像ビューからBEVに特徴を投影する際の速度のボトルネックを減らすために、迅速なビュー変換操作も提案されています。さらに、BEVDepthは、マルチフレームからの入力で簡単に拡張できます。 BEVDepthは、ベルやホイッスルなしで、高効率を維持しながら、挑戦的なnuScenesテストセットで新しい最先端の60.0%NDSを実現します。初めて、カメラとLiDAR間のパフォーマンスギャップが10%NDS以内に大幅に減少しました。
In this research, we propose a new 3D object detector with a trustworthy depth estimation, dubbed BEVDepth, for camera-based Bird's-Eye-View (BEV) 3D object detection. By a thorough analysis of recent approaches, we discover that the depth estimation is implicitly learned without camera information, making it the de-facto fake-depth for creating the following pseudo point cloud. BEVDepth gets explicit depth supervision utilizing encoded intrinsic and extrinsic parameters. A depth correction sub-network is further introduced to counteract projecting-induced disturbances in depth ground truth. To reduce the speed bottleneck while projecting features from image-view into BEV using estimated depth, a quick view-transform operation is also proposed. Besides, our BEVDepth can be easily extended with input from multi-frame. Without any bells and whistles, BEVDepth achieves the new state-of-the-art 60.0% NDS on the challenging nuScenes test set while maintaining high efficiency. For the first time, the performance gap between the camera and LiDAR is largely reduced within 10% NDS.
updated: Tue Jun 21 2022 03:21:18 GMT+0000 (UTC)
published: Tue Jun 21 2022 03:21:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト