このホワイトペーパーでは、単一の単眼画像を使用して、地上の物体の正確な3D検出ボックスを生成する方法を紹介します。 2Dビジュアルキュー、3Dオブジェクトディメンション、およびグランドプレーンの制約をマージして、小さなエラーや不正確な予測に対してロバストなボックスを生成します。まず、関心のある視覚的および幾何学的な複数のキューを生成するシングルショット畳み込みニューラルネットワーク(CNN)をトレーニングします:2Dバウンディングボックス、2Dのキーポイント、粗いオブジェクトの向き、オブジェクトの寸法。次に、これらのキューのサブセットを使用して、事前に計算されたグランドプレーンのデータベースから可能性のあるグランドプレーンをポーリングし、コンセンサスが最も高い「最適な」プレーンを特定します。識別されると、「最適な」平面は、オブジェクトの6DoFポーズを直接予測することなく、目的の3D検出ボックスを正常に構築するのに十分な制約を提供します。グラウンドプレーンポーリング(GPP)プロシージャ全体は、最終的な3Dバウンディングボックスを一緒に定義する、目的の「最適な」プレーンと対応する3Dキーポイントを出力するCNNの非パラメーター化レイヤーとして構築されます。そうすることで、かなりのオーバーヘッドを追加することなく、数千の異なるグランドプレーン構成をポーリングできます。また、後処理を必要とせずに目的の出力を直接生成する単一のCNNを作成できます。困難なKITTIデータセットの2D検出および方向推定ベンチマークでメソッドを評価し、重要な3Dメトリックの追加比較を提供します。このシングルステージ、シングルパスCNNにより、より複雑で計算コストの高い単眼アプローチと比較して、優れたローカリゼーションと方向推定が実現します。
This paper introduces an approach to produce accurate 3D detection boxes for objects on the ground using single monocular images. We do so by merging 2D visual cues, 3D object dimensions, and ground plane constraints to produce boxes that are robust against small errors and incorrect predictions. First, we train a single-shot convolutional neural network (CNN) that produces multiple visual and geometric cues of interest: 2D bounding boxes, 2D keypoints of interest, coarse object orientations and object dimensions. Subsets of these cues are then used to poll probable ground planes from a pre-computed database of ground planes, to identify the "best fit" plane with highest consensus. Once identified, the "best fit" plane provides enough constraints to successfully construct the desired 3D detection box, without directly predicting the 6DoF pose of the object. The entire ground plane polling (GPP) procedure is constructed as a non-parametrized layer of the CNN that outputs the desired "best fit" plane and the corresponding 3D keypoints, which together define the final 3D bounding box. Doing so allows us to poll thousands of different ground plane configurations without adding considerable overhead, while also creating a single CNN that directly produces the desired output without the need for post processing. We evaluate our method on the 2D detection and orientation estimation benchmark from the challenging KITTI dataset, and provide additional comparisons for 3D metrics of importance. This single-stage, single-pass CNN results in superior localization and orientation estimation compared to more complex and computationally expensive monocular approaches.