自己監視単眼深度推定は、屋外データセットで印象的なパフォーマンスを達成しました。ただし、テクスチャが不足しているため、屋内環境ではパフォーマンスが著しく低下します。豊かなテクスチャがないと、測光の一貫性が弱すぎて、適切な深度ネットワークをトレーニングできません。屋内モデリングの初期の作業に触発されて、屋内シーンで示された構造の規則性を活用して、より優れた深度ネットワークをトレーニングします。具体的には、自己監視トレーニング用に2つの追加の監視信号を採用します。1)マンハッタンの通常の制約と2)同一平面上の制約です。マンハッタンの法線拘束は、主要なサーフェス(床、天井、および壁)を支配的な方向に揃えるように強制します。同一平面上の制約は、3Dポイントが同じ平面領域内にある場合、3Dポイントが平面にうまく適合していることを示しています。監視信号を生成するために、2つのコンポーネントを採用して、主要な表面法線を支配的な方向に分類し、トレーニング中にその場で平面領域を検出します。より多くのトレーニングエポックの後に予測された深度がより正確になるにつれて、監視信号も改善され、次にフィードバックがより良い深度モデルを取得します。屋内ベンチマークデータセットでの広範な実験を通じて、結果は、私たちのネットワークが最先端の方法よりも優れていることを示しています。ソースコードはhttps://github.com/SJTU-ViSYS/StructDepthで入手できます。
Self-supervised monocular depth estimation has achieved impressive performance on outdoor datasets. Its performance however degrades notably in indoor environments because of the lack of textures. Without rich textures, the photometric consistency is too weak to train a good depth network. Inspired by the early works on indoor modeling, we leverage the structural regularities exhibited in indoor scenes, to train a better depth network. Specifically, we adopt two extra supervisory signals for self-supervised training: 1) the Manhattan normal constraint and 2) the co-planar constraint. The Manhattan normal constraint enforces the major surfaces (the floor, ceiling, and walls) to be aligned with dominant directions. The co-planar constraint states that the 3D points be well fitted by a plane if they are located within the same planar region. To generate the supervisory signals, we adopt two components to classify the major surface normal into dominant directions and detect the planar regions on the fly during training. As the predicted depth becomes more accurate after more training epochs, the supervisory signals also improve and in turn feedback to obtain a better depth model. Through extensive experiments on indoor benchmark datasets, the results show that our network outperforms the state-of-the-art methods. The source code is available at https://github.com/SJTU-ViSYS/StructDepth .