3Dオブジェクトの検出は、自動運転の重要なタスクです。最近の技術は、3D入力データが正確ではあるが高価なLiDARテクノロジーから得られる場合、非常に正確な検出率に優れています。より安価な単眼またはステレオ画像データに基づくアプローチは、これまで大幅に精度が低下していました。これは、画像ベースの深度推定が不十分であることに起因するギャップです。ただし、このペーパーでは、違いの大部分を占めるのはデータの品質ではなく、その表現であると主張しています。畳み込みニューラルネットワークの内部の仕組みを考慮に入れて、画像ベースの深度マップを擬似LiDAR表現に変換することを提案します。これは、本質的にLiDAR信号を模倣しています。この表現を使用して、さまざまな既存のLiDARベースの検出アルゴリズムを適用できます。人気のあるKITTIベンチマークで、当社のアプローチは、既存の最先端の画像ベースのパフォーマンスに対して印象的な改善を達成しました。 22%から前例のない74%。提出時点で、当社のアルゴリズムは、ステレオ画像ベースのアプローチのKITTI 3Dオブジェクト検出リーダーボードで最高のエントリを保持しています。コードはhttps://github.com/mileyan/pseudo_lidarで公開されています。
3D object detection is an essential task in autonomous driving. Recent techniques excel with highly accurate detection rates, provided the 3D input data is obtained from precise but expensive LiDAR technology. Approaches based on cheaper monocular or stereo imagery data have, until now, resulted in drastically lower accuracies --- a gap that is commonly attributed to poor image-based depth estimation. However, in this paper we argue that it is not the quality of the data but its representation that accounts for the majority of the difference. Taking the inner workings of convolutional neural networks into consideration, we propose to convert image-based depth maps to pseudo-LiDAR representations --- essentially mimicking the LiDAR signal. With this representation we can apply different existing LiDAR-based detection algorithms. On the popular KITTI benchmark, our approach achieves impressive improvements over the existing state-of-the-art in image-based performance --- raising the detection accuracy of objects within the 30m range from the previous state-of-the-art of 22% to an unprecedented 74%. At the time of submission our algorithm holds the highest entry on the KITTI 3D object detection leaderboard for stereo-image-based approaches. Our code is publicly available at https://github.com/mileyan/pseudo_lidar.