畳み込みニューラルネットワーク(CNN)を使用したシングルビューの深度推定のための新しい効率的な表現を提案します。通常、ポイントクラウドはCNNベースの3Dシーンの再構築に使用されます。ただし、いくつかの欠点があります。(1)平面サーフェスの表現として冗長であり、(2)ポイント間の空間的関係がありません(たとえば、テクスチャとサーフェス)。より効率的な表現として、三角形パッチのセットを使用して3D構造の表面を表す三角形パッチクラウドを導入し、3D構造推定のためのCNNフレームワークを提案します。フレームワークでは、入力画像から適応的に決定される2Dメッシュ内のすべての顔を分離して作成し、すべての顔の深さと法線を推定します。一般的なRGBDデータセットを使用すると、パラメータがはるかに少ないものの、既存のポイントクラウドベースの方法よりも優れた、または同等のパフォーマンスが表現にあることがわかります。
We propose a novel and efficient representation for single-view depth estimation using Convolutional Neural Networks (CNNs). Point-cloud is generally used for CNN-based 3D scene reconstruction; however it has some drawbacks: (1) it is redundant as a representation for planar surfaces, and (2) no spatial relationships between points are available (e.g, texture and surface). As a more efficient representation, we introduce a triangular-patch-cloud, which represents the surface of the 3D structure using a set of triangular patches, and propose a CNN framework for its 3D structure estimation. In our framework, we create it by separating all the faces in a 2D mesh, which are determined adaptively from the input image, and estimate depths and normals of all the faces. Using a common RGBD-dataset, we show that our representation has a better or comparable performance than the existing point-cloud-based methods, although it has much less parameters.