本論文では、単一画像からの高密度3D再構成を介して新しいビュー合成と深度推定を実行するMINEを提案します。私たちのアプローチは、ニューラル放射輝度フィールド(NeRF)を導入することにより、マルチプレーン画像(MPI)の連続的な深さの一般化です。入力として単一の画像が与えられると、MINEは任意の深度値で4チャンネル画像(RGBおよびボリューム密度)を予測して、カメラの錐台を共同で再構築し、遮蔽されたコンテンツを埋めます。再構築され、修復された錐台は、微分可能なレンダリングを使用して、新しいRGBビューまたは深度ビューに簡単にレンダリングできます。 RealEstate10K、KITTI、Flowers Light Fieldsでの広範な実験は、私たちのMINEが、斬新なビュー合成において最先端を大幅に上回っていることを示しています。また、注釈付きの深度監視なしで、iBims-1およびNYU-v2の深度推定で競争力のある結果を達成します。ソースコードはhttps://github.com/vincentfung13/MINEで入手できます。
In this paper, we propose MINE to perform novel view synthesis and depth estimation via dense 3D reconstruction from a single image. Our approach is a continuous depth generalization of the Multiplane Images (MPI) by introducing the NEural radiance fields (NeRF). Given a single image as input, MINE predicts a 4-channel image (RGB and volume density) at arbitrary depth values to jointly reconstruct the camera frustum and fill in occluded contents. The reconstructed and inpainted frustum can then be easily rendered into novel RGB or depth views using differentiable rendering. Extensive experiments on RealEstate10K, KITTI and Flowers Light Fields show that our MINE outperforms state-of-the-art by a large margin in novel view synthesis. We also achieve competitive results in depth estimation on iBims-1 and NYU-v2 without annotated depth supervision. Our source code is available at https://github.com/vincentfung13/MINE