Sparse-to-Continuous: Enhancing Monocular Depth Estimation using Occupancy Maps
  このホワイトペーパーでは、単一画像深度推定(SIDE)の問題に対処し、ディープニューラルネットワーク予測の品質の向上に焦点を当てています。教師あり学習シナリオでは、予測の品質は本質的にトレーニングラベルに関連しており、最適化プロセスをガイドします。屋内シーンの場合、構造化された光ベースの深度センサー(Kinectなど)は、短距離ではありますが、高密度の深度マップを提供できます。一方、屋外のシーンでは、LiDARは標準センサーと見なされます。これは、特に遠くの地域では、比較的まばらな測定値を比較的提供します。この記事では、ニューラルネットワークアーキテクチャを修正してスパースデプスマップを処理するのではなく、Hilbert Mapsフレームワークを使用して、デプスマップの新しい高密度化方法を紹介します。 LiDARスキャンの3Dポイントに基づいて連続的な占有マップが生成され、結果の再構成された表面が任意の解像度で2D深度マップに投影されます。 KITTIデータセットのさまざまなサブセットで行われた実験は、トレーニング段階に余分な情報を導入することなく、提案されたスパースから連続への手法によって大幅に改善されたことを示しています。
This paper addresses the problem of single image depth estimation (SIDE), focusing on improving the quality of deep neural network predictions. In a supervised learning scenario, the quality of predictions is intrinsically related to the training labels, which guide the optimization process. For indoor scenes, structured-light-based depth sensors (e.g. Kinect) are able to provide dense, albeit short-range, depth maps. On the other hand, for outdoor scenes, LiDARs are considered the standard sensor, which comparatively provides much sparser measurements, especially in areas further away. Rather than modifying the neural network architecture to deal with sparse depth maps, this article introduces a novel densification method for depth maps, using the Hilbert Maps framework. A continuous occupancy map is produced based on 3D points from LiDAR scans, and the resulting reconstructed surface is projected into a 2D depth map with arbitrary resolution. Experiments conducted with various subsets of the KITTI dataset show a significant improvement produced by the proposed Sparse-to-Continuous technique, without the introduction of extra information into the training stage.
updated: Mon Oct 21 2019 22:01:23 GMT+0000 (UTC)
published: Mon Sep 24 2018 17:10:10 GMT+0000 (UTC)
