NeRFは神経の再構築とレンダリングで大きな成功を収めていますが、その限られたMLP容量と長いシーンごとの最適化時間により、大規模な屋内シーンのモデル化が困難になっています。対照的に、従来の3D再構成方法では、大規模なシーンを処理できますが、リアルなレンダリングは生成されません。 NeRFとTSDFベースの融合技術の利点を組み合わせて効率的な大規模な再構成とフォトリアリスティックなレンダリングを実現する方法であるNeRFusionを提案します。入力画像シーケンスを処理して、直接ネットワーク推論を介してフレームごとのローカル放射輝度フィールドを予測します。次に、これらは、22fpsでリアルタイムにグローバルでスパースなシーン表現を段階的に再構築する新しいリカレントニューラルネットワークを使用して融合されます。このグローバルボリュームをさらに微調整して、レンダリング品質を向上させることができます。 NeRFusionは、大規模な屋内と小規模のオブジェクトシーンの両方で最先端の品質を実現し、NeRFやその他の最近の方法よりも大幅に高速な再構築を実現します。
While NeRF has shown great success for neural reconstruction and rendering, its limited MLP capacity and long per-scene optimization times make it challenging to model large-scale indoor scenes. In contrast, classical 3D reconstruction methods can handle large-scale scenes but do not produce realistic renderings. We propose NeRFusion, a method that combines the advantages of NeRF and TSDF-based fusion techniques to achieve efficient large-scale reconstruction and photo-realistic rendering. We process the input image sequence to predict per-frame local radiance fields via direct network inference. These are then fused using a novel recurrent neural network that incrementally reconstructs a global, sparse scene representation in real-time at 22 fps. This global volume can be further fine-tuned to boost rendering quality. We demonstrate that NeRFusion achieves state-of-the-art quality on both large-scale indoor and small-scale object scenes, with substantially faster reconstruction than NeRF and other recent methods.