arXiv reaDer
Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving
本稿では、自動運転の領域における単眼3D物体検出フレームワークを提案します。 2D画像から抽出されたRGB特徴に焦点を当てる以前の画像ベースの方法とは異なり、私たちの方法は、3Dコンテキストを明示的に活用するために、再構築された3D空間でこの問題を解決します。この目的のために、最初にスタンドアロンモジュールを活用して、入力データを2D画像平面から3D点群空間に変換し、より良い入力表現を実現します。次に、PointNetバックボーンネットを使用して3D検出を実行し、オブジェクトの3D位置、寸法、およびオリエンテーション。点群の識別能力を強化するために、生成された点群表現に相補的なRGBキューを埋め込むマルチモーダル特徴融合モジュールを提案します。画像平面(すなわち、R、G、B画像平面)と比較して、生成された3Dシーン空間(すなわち、X、Y、Z空間)から3D境界ボックスを推測することがより効果的であると主張します。挑戦的なKITTIデータセットの評価は、私たちのアプローチが最先端の単眼アプローチのパフォーマンスを大幅に向上させることを示しています。
In this paper, we propose a monocular 3D object detection framework in the domain of autonomous driving. Unlike previous image-based methods which focus on RGB feature extracted from 2D images, our method solves this problem in the reconstructed 3D space in order to exploit 3D contexts explicitly. To this end, we first leverage a stand-alone module to transform the input data from 2D image plane to 3D point clouds space for a better input representation, then we perform the 3D detection using PointNet backbone net to obtain objects 3D locations, dimensions and orientations. To enhance the discriminative capability of point clouds, we propose a multi-modal feature fusion module to embed the complementary RGB cue into the generated point clouds representation. We argue that it is more effective to infer the 3D bounding boxes from the generated 3D scene space (i.e., X,Y, Z space) compared to the image plane (i.e., R,G,B image plane). Evaluation on the challenging KITTI dataset shows that our approach boosts the performance of state-of-the-art monocular approach by a large margin.
updated: Tue Mar 30 2021 09:14:19 GMT+0000 (UTC)
published: Wed Mar 27 2019 14:23:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト