異なるビュー間の正確な対応を見つけることは、教師なしマルチビューステレオ(MVS)のアキレス腱です。既存の方法は、対応するピクセルが同様の測光機能を共有するという仮定に基づいて構築されています。ただし、実際のシナリオでのマルチビュー画像は、ランバート以外の表面を観察し、オクルージョンを経験します。この作業では、ビュー間の対応のこのようなあいまいな問題を解決するために、ニューラルレンダリング(RC-MVSNet)を使用した新しいアプローチを提案します。具体的には、オクルージョンを軽減するために、オブジェクトサーフェスに近いジオメトリフィーチャを制約するために、深度レンダリングの一貫性の損失を課します。同時に、非ランバート表面に対しても一貫した監視を生成するために、参照ビュー合成損失を導入します。 DTUとTanks \&Templesベンチマークに関する広範な実験は、RC-MVSNetアプローチが、教師なしMVSフレームワークを超える最先端のパフォーマンスと、多くの教師ありメソッドに対する競争力のあるパフォーマンスを実現することを示しています。トレーニングされたモデルとコードは、https://でリリースされます。 github.com/Boese0601/RC-MVSNet。
Finding accurate correspondences among different views is the Achilles' heel of unsupervised Multi-View Stereo (MVS). Existing methods are built upon the assumption that corresponding pixels share similar photometric features. However, multi-view images in real scenarios observe non-Lambertian surfaces and experience occlusions. In this work, we propose a novel approach with neural rendering (RC-MVSNet) to solve such ambiguity issues of correspondences among views. Specifically, we impose a depth rendering consistency loss to constrain the geometry features close to the object surface to alleviate occlusions. Concurrently, we introduce a reference view synthesis loss to generate consistent supervision, even for non-Lambertian surfaces. Extensive experiments on DTU and Tanks\&Temples benchmarks demonstrate that our RC-MVSNet approach achieves state-of-the-art performance over unsupervised MVS frameworks and competitive performance to many supervised methods.The trained models and code will be released at https://github.com/Boese0601/RC-MVSNet.