サラウンドビュー魚眼カメラシステムを搭載した車両の3D視覚認識は、低コストの都市型自動運転にとって重要かつ困難な作業です。既存の単眼3Dオブジェクト検出方法は、大量生産のための魚眼画像では十分に機能しませんが、そのような画像の3Dデータセットが不足していることも一因です。この論文では、3Dオブジェクト検出タスクを車両の接触点検出、タイプ分類、再などのいくつかのサブタスクに分割することにより、大規模で正確な3Dラベル付き真理データを取得することの難しさを克服して回避することができます。特に、鳥瞰図(BEV)や8点の立方体の記述的アプローチではなく、さまざまな次元や段階で生成された利用可能な情報を含める多次元ベクトルの概念を提案します。実際の魚眼画像の実験は、私たちのソリューションが実際にリアルタイムでありながら最先端の精度を達成することを示しています。
The 3D visual perception for vehicles with the surround-view fisheye camera system is a critical and challenging task for low-cost urban autonomous driving. While existing monocular 3D object detection methods perform not well enough on the fisheye images for mass production, partly due to the lack of 3D datasets of such images. In this paper, we manage to overcome and avoid the difficulty of acquiring the large scale of accurate 3D labeled truth data, by breaking down the 3D object detection task into some sub-tasks, such as vehicle's contact point detection, type classification, re-identification and unit assembling, etc. Particularly, we propose the concept of Multidimensional Vector to include the utilizable information generated in different dimensions and stages, instead of the descriptive approach for the bird's eye view (BEV) or a cube of eight points. The experiments of real fisheye images demonstrate that our solution achieves state-of-the-art accuracy while being real-time in practice.