既知のカメラポーズを持つ複数の入力ビューからの3D平面再構成のためのPlaneMVSという名前の新しいフレームワークを提示します。以前のほとんどの学習ベースの平面再構成方法は、単一画像から3D平面を再構成します。これは、単一ビュー回帰に大きく依存し、深度スケールのあいまいさに悩まされています。対照的に、マルチビュージオメトリを利用するマルチビューステレオ(MVS)パイプラインを使用して3D平面を再構築します。平面再構成をセマンティック平面検出ブランチと平面MVSブランチに分離します。セマンティックプレーン検出ブランチは、シングルビュープレーン検出フレームワークに基づいていますが、違いがあります。平面MVSブランチは、平面スイープ戦略を実行するために従来の深度仮説を置き換えるために一連の傾斜平面仮説を採用し、最後にピクセルレベルの平面パラメーターとその平面深度マップを学習します。 2つのブランチがどのようにバランスの取れた方法で学習されるかを示し、2つのブランチの出力を関連付けて相互に利益をもたらすためのソフトプーリング損失を提案します。さまざまな屋内データセットでの広範な実験により、PlaneMVSは、平面検出と3Dジオメトリメトリックの両方で、最先端の(SOTA)単一ビュー平面再構成方法を大幅に上回っています。私たちの方法は、学習された平面の事前分布のおかげで、SOTA学習ベースのMVS方法のセットよりも優れています。私たちの知る限り、これはエンドツーエンドのMVSフレームワーク内での3D平面再構築に関する最初の作業です。
We present a novel framework named PlaneMVS for 3D plane reconstruction from multiple input views with known camera poses. Most previous learning-based plane reconstruction methods reconstruct 3D planes from single images, which highly rely on single-view regression and suffer from depth scale ambiguity. In contrast, we reconstruct 3D planes with a multi-view-stereo (MVS) pipeline that takes advantage of multi-view geometry. We decouple plane reconstruction into a semantic plane detection branch and a plane MVS branch. The semantic plane detection branch is based on a single-view plane detection framework but with differences. The plane MVS branch adopts a set of slanted plane hypotheses to replace conventional depth hypotheses to perform plane sweeping strategy and finally learns pixel-level plane parameters and its planar depth map. We present how the two branches are learned in a balanced way, and propose a soft-pooling loss to associate the outputs of the two branches and make them benefit from each other. Extensive experiments on various indoor datasets show that PlaneMVS significantly outperforms state-of-the-art (SOTA) single-view plane reconstruction methods on both plane detection and 3D geometry metrics. Our method even outperforms a set of SOTA learning-based MVS methods thanks to the learned plane priors. To the best of our knowledge, this is the first work on 3D plane reconstruction within an end-to-end MVS framework.