学習ベースのマルチビュー ステレオ (MVS) 手法は、正確な深度マップを予測して、正確で完全な 3D 表現を実現します。優れたパフォーマンスにもかかわらず、既存の方法は、MVS では適切な深さのジオメトリも重要であるという事実を無視しています。この論文では、同じ深度予測誤差を使用した場合でも、異なる深度ジオメトリには大きなパフォーマンスのギャップがあることを示します。したがって、サドル型セルで構成される理想的な深度ジオメトリを導入します。このセルの予測深度マップは、連続的で滑らかな深度面を維持するのではなく、グラウンドトゥルース表面の周囲で上下に振動します。これを実現するために、振動する深度平面を生成できる Dual-MVSNet (DMVSNet) と呼ばれる粗密フレームワークを開発しました。技術的には、ピクセルごとに 2 つの深度値を予測し (デュアル深度)、予測された深度ジオメトリを制約するための新しい損失関数と市松模様の選択戦略を提案します。既存の方法と比較して、DMVSNet は DTU ベンチマークで高いランクを達成し、戦車や寺院の困難なシーンで最高のパフォーマンスを獲得し、その強力なパフォーマンスと汎用化能力を実証しています。私たちの方法は、MVS で深さの幾何学を考慮するための新しい研究の方向性も示しています。
Learning-based multi-view stereo (MVS) methods deal with predicting accurate depth maps to achieve an accurate and complete 3D representation. Despite the excellent performance, existing methods ignore the fact that a suitable depth geometry is also critical in MVS. In this paper, we demonstrate that different depth geometries have significant performance gaps, even using the same depth prediction error. Therefore, we introduce an ideal depth geometry composed of Saddle-Shaped Cells, whose predicted depth map oscillates upward and downward around the ground-truth surface, rather than maintaining a continuous and smooth depth plane. To achieve it, we develop a coarse-to-fine framework called Dual-MVSNet (DMVSNet), which can produce an oscillating depth plane. Technically, we predict two depth values for each pixel (Dual-Depth), and propose a novel loss function and a checkerboard-shaped selecting strategy to constrain the predicted depth geometry. Compared to existing methods,DMVSNet achieves a high rank on the DTU benchmark and obtains the top performance on challenging scenes of Tanks and Temples, demonstrating its strong performance and generalization ability. Our method also points to a new research direction for considering depth geometry in MVS.