単一の画像から正確な深度を推定することは、同じ2Dシーンに無限に多くの3Dシーンを投影できるため、不適切な問題であるため、困難です。ただし、深い畳み込みニューラルネットワークに基づく最近の研究は、もっともらしい結果で大きな進歩を示しています。畳み込みニューラルネットワークは、一般に2つの部分で構成されます。高密度の特徴抽出用のエンコーダーと目的の深さを予測するためのデコーダーです。エンコーダ-デコーダ方式では、ストライドコンボリューションと空間プーリングレイヤーを繰り返すと、遷移出力の空間解像度が低下し、スキップ接続やマルチレイヤーデコンボリューションネットワークなどのいくつかの手法を採用して、効果的な高密度予測のために元の解像度を復元します。この論文では、高密度にエンコードされた特徴を目的の深度予測にさらに効果的に誘導するために、デコードフェーズの複数の段階にある新しいローカル平面ガイダンス層を利用するネットワークアーキテクチャを提案します。提案された方法は、挑戦的なベンチマークで評価するかなりのマージンで、最先端の作業よりも優れていることを示します。また、提案された方法の有効性を検証するために、アブレーション研究の結果を提供します。
Estimating accurate depth from a single image is challenging because it is an ill-posed problem as infinitely many 3D scenes can be projected to the same 2D scene. However, recent works based on deep convolutional neural networks show great progress with plausible results. The convolutional neural networks are generally composed of two parts: an encoder for dense feature extraction and a decoder for predicting the desired depth. In the encoder-decoder schemes, repeated strided convolution and spatial pooling layers lower the spatial resolution of transitional outputs, and several techniques such as skip connections or multi-layer deconvolutional networks are adopted to recover the original resolution for effective dense prediction. In this paper, for more effective guidance of densely encoded features to the desired depth prediction, we propose a network architecture that utilizes novel local planar guidance layers located at multiple stages in the decoding phase. We show that the proposed method outperforms the state-of-the-art works with significant margin evaluating on challenging benchmarks. We also provide results from an ablation study to validate the effectiveness of the proposed method.