このホワイトペーパーでは、既知のカメラポーズや組み込み関数を使用せずに、2D画像からの新しいビュー合成(NVS)の問題に取り組んでいます。さまざまなNVS技術の中で、Neural Radiance Field(NeRF)は、その優れた合成品質により、最近人気を博しています。既存のNeRFベースのアプローチは、各入力画像に関連付けられたカメラパラメータがトレーニング時に直接アクセス可能であるか、Structure-from-Motionなどの対応に基づく従来の手法で正確に推定できることを前提としています。この作業では、事前に計算されたカメラパラメータを使用せずに、RGB画像のみを指定してNeRFモデルをトレーニングするためのNeRF--と呼ばれるエンドツーエンドのフレームワークを提案します。具体的には、内因性と外因性の両方を含むカメラパラメータが、NeRFモデルのトレーニング中に共同最適化を介して自動的に検出できることを示します。標準のLLFFベンチマークでは、私たちのモデルは、COLMAPの事前に計算されたカメラパラメーターでトレーニングされたベースラインと比較して、同等の新しいビュー合成結果を達成します。また、さまざまなカメラ軌道の下でのモデルの動作を理解するために広範な分析を実施し、COLMAPが失敗したシナリオでも、モデルが堅牢な結果を生成することを示しています。
This paper tackles the problem of novel view synthesis (NVS) from 2D images without known camera poses and intrinsics. Among various NVS techniques, Neural Radiance Field (NeRF) has recently gained popularity due to its remarkable synthesis quality. Existing NeRF-based approaches assume that the camera parameters associated with each input image are either directly accessible at training, or can be accurately estimated with conventional techniques based on correspondences, such as Structure-from-Motion. In this work, we propose an end-to-end framework, termed NeRF--, for training NeRF models given only RGB images, without pre-computed camera parameters. Specifically, we show that the camera parameters, including both intrinsics and extrinsics, can be automatically discovered via joint optimisation during the training of the NeRF model. On the standard LLFF benchmark, our model achieves comparable novel view synthesis results compared to the baseline trained with COLMAP pre-computed camera parameters. We also conduct extensive analyses to understand the model behaviour under different camera trajectories, and show that in scenarios where COLMAP fails, our model still produces robust results.