従来、ポーズをとった画像からの 3D 屋内シーンの再構築は、2 つのフェーズで行われます。画像ごとの深度推定、その後の深度マージ、および表面再構築です。最近、最終的な 3D 体積特徴空間で再構成を直接実行する一連の方法が登場しました。これらの方法は印象的な再構成結果を示していますが、高価な 3D 畳み込み層に依存しているため、リソースに制約のある環境での適用が制限されています。この作業では、代わりに従来のルートに戻り、高品質のマルチビュー深度予測に焦点を当てることが、単純な既製の深度融合を使用して非常に正確な 3D 再構成につながる方法を示します。 2つの主な貢献を伴うシンプルな最先端のマルチビュー深度推定器を提案します。1)平面スイープ機能ボリュームと幾何学的損失とともに強力な画像事前分布を利用する、慎重に設計された2D CNN、2)と組み合わせたキーフレームとジオメトリック メタデータをコスト ボリュームに統合することで、情報に基づいたデプス プレーン スコアリングが可能になります。私たちの方法は、深度推定の現在の最先端技術を大幅にリードし、ScanNet および 7-Scenes での 3D 再構成に近いかそれ以上を達成しますが、オンラインでのリアルタイムの低メモリ再構成を可能にします。コード、モデル、および結果は、https://nianticlabs.github.io/simplerecon で入手できます。
Traditionally, 3D indoor scene reconstruction from posed images happens in two phases: per-image depth estimation, followed by depth merging and surface reconstruction. Recently, a family of methods have emerged that perform reconstruction directly in final 3D volumetric feature space. While these methods have shown impressive reconstruction results, they rely on expensive 3D convolutional layers, limiting their application in resource-constrained environments. In this work, we instead go back to the traditional route, and show how focusing on high quality multi-view depth prediction leads to highly accurate 3D reconstructions using simple off-the-shelf depth fusion. We propose a simple state-of-the-art multi-view depth estimator with two main contributions: 1) a carefully-designed 2D CNN which utilizes strong image priors alongside a plane-sweep feature volume and geometric losses, combined with 2) the integration of keyframe and geometric metadata into the cost volume which allows informed depth plane scoring. Our method achieves a significant lead over the current state-of-the-art for depth estimation and close or better for 3D reconstruction on ScanNet and 7-Scenes, yet still allows for online real-time low-memory reconstruction. Code, models and results are available at https://nianticlabs.github.io/simplerecon