arXiv reaDer
自動運転のための地上認識単眼3Dオブジェクト検出
Ground-aware Monocular 3D Object Detection for Autonomous Driving
単一のRGBカメラを使用して環境内のオブジェクトの3D位置と方向を推定することは、低コストの都市型自動運転および移動ロボットにとって重要で困難な作業です。既存のアルゴリズムのほとんどは、一般的な6Dオブジェクトのポーズ推定に由来する2D-3D対応の幾何学的制約に基づいています。まず、運転シーンでの3D検出において、地面が深度推論の追加の手がかりをどのように提供するかを特定します。次に、この観察に基づいて、3Dアンカーの処理を改善し、新しいニューラルネットワークモジュールを導入して、ディープラーニングのフレームワークでこのようなアプリケーション固有の事前確率を十分に活用します。最後に、3Dオブジェクト検出用に提案されたモジュールが組み込まれた効率的なニューラルネットワークを紹介します。さらに、単眼深度予測用に設計されたニューラルネットワークを使用して、提案されたモジュールの能力を検証します。提案された2つのネットワークは、それぞれKITTI3Dオブジェクト検出および深度予測ベンチマークで最先端のパフォーマンスを実現します。コードはhttps://www.github.com/Owen-Liuyuxuan/visualDet3Dで公開されます
Estimating the 3D position and orientation of objects in the environment with a single RGB camera is a critical and challenging task for low-cost urban autonomous driving and mobile robots. Most of the existing algorithms are based on the geometric constraints in 2D-3D correspondence, which stems from generic 6D object pose estimation. We first identify how the ground plane provides additional clues in depth reasoning in 3D detection in driving scenes. Based on this observation, we then improve the processing of 3D anchors and introduce a novel neural network module to fully utilize such application-specific priors in the framework of deep learning. Finally, we introduce an efficient neural network embedded with the proposed module for 3D object detection. We further verify the power of the proposed module with a neural network designed for monocular depth prediction. The two proposed networks achieve state-of-the-art performances on the KITTI 3D object detection and depth prediction benchmarks, respectively. The code will be published in https://www.github.com/Owen-Liuyuxuan/visualDet3D
updated: Mon Feb 01 2021 08:18:24 GMT+0000 (UTC)
published: Mon Feb 01 2021 08:18:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト