マルチビュー深度推定は、3D世界を再構築して理解する上で重要な役割を果たします。最近の学習ベースの方法は、その中で大きな進歩を遂げました。ただし、マルチビュー深度推定は基本的に対応ベースの最適化問題ですが、以前の学習ベースの方法は、主に事前定義された深度仮説に依存して、コストボリュームとして対応を構築し、反復の本質から逸脱して、深度予測に適合するように暗黙的に正規化します。ステレオ対応に基づく最適化。したがって、それらは不十分な精度と一般化機能に苦しんでいます。この論文では、深度推定のために動的に対応を確立するために、より一般的な画像相関を調査した最初の人です。最適化プロセスを模倣した新しい反復マルチビュー深度推定フレームワークを設計します。これは、1)参照画像とソース画像間のピクセル類似性をすべての相関としてモデル化する相関ボリューム構築モジュールです。 2)2Dオプティカルフローから深度を推定するフローベースの深度初期化モジュール。 3)さまざまなビューでポイントを再投影して、関連する相関を効果的にフェッチしてさらに融合し、融合された相関を統合して反復的な深度更新を行う、新しい相関ガイド付き深度リファインメントモジュール。事前定義された深度仮説がない場合、融合相関は効率的な方法でマルチビュー対応を確立し、ヒューリスティックに深度の改善を導きます。 ScanNet、DeMoN、ETH3D、および7Scenesで十分な実験を行い、マルチビュー深度推定におけるこの方法の優位性とその最高の一般化能力を実証します。
Multi-view depth estimation plays a critical role in reconstructing and understanding the 3D world. Recent learning-based methods have made significant progress in it. However, multi-view depth estimation is fundamentally a correspondence-based optimization problem, but previous learning-based methods mainly rely on predefined depth hypotheses to build correspondence as the cost volume and implicitly regularize it to fit depth prediction, deviating from the essence of iterative optimization based on stereo correspondence. Thus, they suffer unsatisfactory precision and generalization capability. In this paper, we are the first to explore more general image correlations to establish correspondences dynamically for depth estimation. We design a novel iterative multi-view depth estimation framework mimicking the optimization process, which consists of 1) a correlation volume construction module that models the pixel similarity between a reference image and source images as all-to-all correlations; 2) a flow-based depth initialization module that estimates the depth from the 2D optical flow; 3) a novel correlation-guided depth refinement module that reprojects points in different views to effectively fetch relevant correlations for further fusion and integrate the fused correlation for iterative depth update. Without predefined depth hypotheses, the fused correlations establish multi-view correspondence in an efficient way and guide the depth refinement heuristically. We conduct sufficient experiments on ScanNet, DeMoN, ETH3D, and 7Scenes to demonstrate the superiority of our method on multi-view depth estimation and its best generalization ability.