Neural Radiance Fields (NeRF) のような暗黙的な視覚表現の実際的な利点は、そのメモリ効率です。大きなシーンを、画像のコレクションではなく小さなニューラル ネットワークとして効率的に保存および共有できます。ただし、これらの暗黙的な視覚データ構造を操作するには、画像セットからニューラル フィールドまで古典的な画像ベースの視覚技術 (例: レジストレーション、ブレンディング) を拡張する必要があります。この目標に向けて、私たちは NeRFuser を提案します。NeRFuser は、事前に生成された NeRF へのアクセスのみを想定し、NeRF の生成に使用される潜在的に大規模な画像セットへのアクセスを想定しない、NeRF の登録とブレンディングのための新しいアーキテクチャです。我々は、個々の NeRF から合成された画像に基づいて NeRF 間の変換を推測する手法である再レンダリングからの位置合わせを提案します。ブレンディングについては、光線サンプル レベルで視覚情報をブレンドするために、サンプルベースの逆距離重み付けを提案します。公開ベンチマークと自己収集したオブジェクト中心の屋内データセットで NeRFuser を評価し、個々のソース NeRF からレンダリングするのが難しいビューを含め、私たちの方法の堅牢性を示します。
A practical benefit of implicit visual representations like Neural Radiance Fields (NeRFs) is their memory efficiency: large scenes can be efficiently stored and shared as small neural nets instead of collections of images. However, operating on these implicit visual data structures requires extending classical image-based vision techniques (e.g., registration, blending) from image sets to neural fields. Towards this goal, we propose NeRFuser, a novel architecture for NeRF registration and blending that assumes only access to pre-generated NeRFs, and not the potentially large sets of images used to generate them. We propose registration from re-rendering, a technique to infer the transformation between NeRFs based on images synthesized from individual NeRFs. For blending, we propose sample-based inverse distance weighting to blend visual information at the ray-sample level. We evaluate NeRFuser on public benchmarks and a self-collected object-centric indoor dataset, showing the robustness of our method, including to views that are challenging to render from the individual source NeRFs.