既存の深層学習ベースのマルチビューステレオ(MVS)アプローチの成功は、密な深度マップの形での大規模な監視の可用性に大きく依存しています。このような監督は、常に可能ではありませんが、これまでにないシナリオで学習モデルの一般化能力を妨げる傾向があります。この論文では、最初の教師なし学習ベースのMVSネットワークを提案します。これは、入力マルチビュー画像からマルチビュー深度マップを学習し、地上の真実の3Dトレーニングデータを必要としません。私たちのネットワークは、すべてのビューの深度マップを同時に予測するのに対称的であり、トレーニングとテストの両方の段階でマルチビュー深度マップのクロスビュー一貫性を強制します。したがって、学習されたマルチビュー深度マップは、基礎となる3Dシーンジオメトリに自然に準拠します。さらに、ネットワークはマルチビューオクルージョンマップも学習します。これにより、実際のオクルージョンの処理におけるネットワークの堅牢性がさらに向上します。複数のベンチマークデータセットに関する実験結果は、ネットワークの有効性と優れた一般化能力を示しています。
The success of existing deep-learning based multi-view stereo (MVS) approaches greatly depends on the availability of large-scale supervision in the form of dense depth maps. Such supervision, while not always possible, tends to hinder the generalization ability of the learned models in never-seen-before scenarios. In this paper, we propose the first unsupervised learning based MVS network, which learns the multi-view depth maps from the input multi-view images and does not need ground-truth 3D training data. Our network is symmetric in predicting depth maps for all views simultaneously, where we enforce cross-view consistency of multi-view depth maps during both training and testing stages. Thus, the learned multi-view depth maps naturally comply with the underlying 3D scene geometry. Besides, our network also learns the multi-view occlusion maps, which further improves the robustness of our network in handling real-world occlusions. Experimental results on multiple benchmarking datasets demonstrate the effectiveness of our network and the excellent generalization ability.