最近、ビデオからの教師なしの深さの学習は目覚ましい進歩を遂げており、その結果は、KITTIのような屋外シーンでの完全に監督された方法に匹敵します。しかし、この技術を屋内環境に直接適用する場合、たとえば、白い壁のようなテクスチャのない領域の広い領域、ハンドヘルドカメラのより複雑なエゴモーション、透明なメガネ、光沢のあるオブジェクトに直接適用する場合、大きな課題が依然として存在します。これらの問題を克服するために、より明確なトレーニングターゲットを提供し、非テクスチャ領域を処理することにより、教師なし学習の難しさを軽減する新しいオプティカルフローベースのトレーニングパラダイムを提案します。私たちの実験的評価は、私たちの方法の結果がNYU Depth V2ベンチマークで完全に監視された方法に匹敵することを示しています。私たちの知る限り、これは屋内データセットで報告された純粋に教師なし学習方法の最初の定量的結果です。
Recently unsupervised learning of depth from videos has made remarkable progress and the results are comparable to fully supervised methods in outdoor scenes like KITTI. However, there still exist great challenges when directly applying this technology in indoor environments, e.g., large areas of non-texture regions like white wall, more complex ego-motion of handheld camera, transparent glasses and shiny objects. To overcome these problems, we propose a new optical-flow based training paradigm which reduces the difficulty of unsupervised learning by providing a clearer training target and handles the non-texture regions. Our experimental evaluation demonstrates that the result of our method is comparable to fully supervised methods on the NYU Depth V2 benchmark. To the best of our knowledge, this is the first quantitative result of purely unsupervised learning method reported on indoor datasets.