1つまたは少数の入力画像を条件とする連続的な神経シーン表現を予測する学習フレームワークであるpixelNeRFを提案します。神経放射輝度フィールドを構築するための既存のアプローチは、すべてのシーンに対して独立して表現を最適化することを含み、多くの較正されたビューとかなりの計算時間を必要とします。完全畳み込み方式で画像入力にNeRFを条件付けるアーキテクチャを導入することにより、これらの欠点を解決するための一歩を踏み出します。これにより、ネットワークを複数のシーンにわたってトレーニングして、前のシーンを学習できるようになり、まばらなビューのセット(わずか1つ)からフィードフォワード方式で新しいビュー合成を実行できるようになります。 NeRFのボリュームレンダリングアプローチを活用して、私たちのモデルは、明示的な3D監視なしで画像から直接トレーニングできます。差し出されたオブジェクトと見えないカテゴリ全体を使用した単一画像の新規ビュー合成タスクについて、ShapeNetベンチマークで広範な実験を実施します。さらに、マルチオブジェクトShapeNetシーンとDTUデータセットの実際のシーンで、pixelNeRFの柔軟性を示します。すべての場合において、pixelNeRFは、新しいビューの合成と単一画像の3D再構成に関して、現在の最先端のベースラインを上回っています。ビデオとコードについては、プロジェクトのWebサイトにアクセスしてください:https://alexyu.net/pixelnerf
We propose pixelNeRF, a learning framework that predicts a continuous neural scene representation conditioned on one or few input images. The existing approach for constructing neural radiance fields involves optimizing the representation to every scene independently, requiring many calibrated views and significant compute time. We take a step towards resolving these shortcomings by introducing an architecture that conditions a NeRF on image inputs in a fully convolutional manner. This allows the network to be trained across multiple scenes to learn a scene prior, enabling it to perform novel view synthesis in a feed-forward manner from a sparse set of views (as few as one). Leveraging the volume rendering approach of NeRF, our model can be trained directly from images with no explicit 3D supervision. We conduct extensive experiments on ShapeNet benchmarks for single image novel view synthesis tasks with held-out objects as well as entire unseen categories. We further demonstrate the flexibility of pixelNeRF by demonstrating it on multi-object ShapeNet scenes and real scenes from the DTU dataset. In all cases, pixelNeRF outperforms current state-of-the-art baselines for novel view synthesis and single image 3D reconstruction. For the video and code, please visit the project website: https://alexyu.net/pixelnerf