単眼深度予測は、3Dシーンのジオメトリを理解する上で重要な役割を果たします。最近の方法は、ピクセル単位の相対誤差などの評価指標に関して目覚ましい進歩を遂げましたが、ほとんどの方法は3D空間の幾何学的制約を無視しています。この作業では、深さ予測のための高次3D幾何学的制約の重要性を示します。単純な幾何学的制約、つまり、再構築された3D空間でランダムにサンプリングされた3点によって決定される仮想法線方向を強制する損失項を設計することにより、単眼深度推定の精度と堅牢性が大幅に向上します。重要なことに、仮想法線損失は、メトリック深度の学習のパフォーマンスを向上させるだけでなく、スケール情報を解きほぐし、より良い形状情報でモデルを充実させることができます。したがって、絶対メトリック深度トレーニングデータにアクセスできない場合は、仮想法線を使用して、さまざまなシーンで生成された堅牢なアフィン不変深度を学習できます。実験では、NYUDepth-V2とKITTIでメトリック深度を学習した最新の結果を示します。高品質の予測深度から、点群や表面法線などのシーンの良好な3D構造を直接復元できるようになり、以前のように追加のモデルに依存する必要がなくなりました。仮想正規損失を使用して多様なデータでアフィン不変の深さを学習する優れた一般化可能性を示すために、多様なシーンの深さデータセット(DiverseDepth)と呼ばれる、アフィン不変の深さをトレーニングするための大規模で多様なデータセットを構築し、5つのデータセットでテストします。ゼロショットテスト設定で。コードはhttps://git.io/Depthで入手できます。
Monocular depth prediction plays a crucial role in understanding 3D scene geometry. Although recent methods have achieved impressive progress in terms of evaluation metrics such as the pixel-wise relative error, most methods neglect the geometric constraints in the 3D space. In this work, we show the importance of the high-order 3D geometric constraints for depth prediction. By designing a loss term that enforces a simple geometric constraint, namely, virtual normal directions determined by randomly sampled three points in the reconstructed 3D space, we significantly improve the accuracy and robustness of monocular depth estimation. Significantly, the virtual normal loss can not only improve the performance of learning metric depth, but also disentangle the scale information and enrich the model with better shape information. Therefore, when not having access to absolute metric depth training data, we can use virtual normal to learn a robust affine-invariant depth generated on diverse scenes. In experiments, We show state-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI. From the high-quality predicted depth, we are now able to recover good 3D structures of the scene such as the point cloud and surface normal directly, eliminating the necessity of relying on additional models as was previously done. To demonstrate the excellent generalizability of learning affine-invariant depth on diverse data with the virtual normal loss, we construct a large-scale and diverse dataset for training affine-invariant depth, termed Diverse Scene Depth dataset (DiverseDepth), and test on five datasets with the zero-shot test setting. Code is available at: https://git.io/Depth