新規ビュー合成のために、シングルビューRGB画像から神経放射輝度フィールドを再構築する学習フレームワークであるPVSeRFを紹介します。 pixelNeRFなどの以前のソリューションは、ピクセルに位置合わせされた機能のみに依存しており、機能のあいまいさの問題に悩まされています。その結果、彼らは幾何学と外観の解きほぐしに苦労し、信じられないほどの幾何学とぼやけた結果につながります。この課題に対処するために、明示的なジオメトリ推論を組み込み、放射輝度フィールド予測のためにピクセル整列機能と組み合わせることを提案します。具体的には、ピクセル整列特徴に加えて、放射輝度フィールド学習を、i)粗い体積グリッドから学習したボクセル整列特徴、およびii)回帰点群から抽出された微細な表面整列特徴に条件付けられるようにさらに制約します。このようなジオメトリ対応機能の導入は、外観とジオメトリの間のより良い解きほぐしを実現するのに役立つことを示します。つまり、より正確なジオメトリを復元し、新しいビューのより高品質の画像を合成します。 ShapeNetベンチマークでの最先端の方法に対する広範な実験は、単一画像の新しいビュー合成に対する私たちのアプローチの優位性を示しています。
We present PVSeRF, a learning framework that reconstructs neural radiance fields from single-view RGB images, for novel view synthesis. Previous solutions, such as pixelNeRF, rely only on pixel-aligned features and suffer from feature ambiguity issues. As a result, they struggle with the disentanglement of geometry and appearance, leading to implausible geometries and blurry results. To address this challenge, we propose to incorporate explicit geometry reasoning and combine it with pixel-aligned features for radiance field prediction. Specifically, in addition to pixel-aligned features, we further constrain the radiance field learning to be conditioned on i) voxel-aligned features learned from a coarse volumetric grid and ii) fine surface-aligned features extracted from a regressed point cloud. We show that the introduction of such geometry-aware features helps to achieve a better disentanglement between appearance and geometry, i.e. recovering more accurate geometries and synthesizing higher quality images of novel views. Extensive experiments against state-of-the-art methods on ShapeNet benchmarks demonstrate the superiority of our approach for single-image novel view synthesis.