最近の研究では、事前学習済みの拡散モデルと神経放射フィールド (NeRF) の組み合わせが、テキストから 3D への生成の有望なアプローチとして浮上していることが実証されました。 NeRF を拡散モデルと単純に結合すると、ビュー間の不整合が発生し、様式化されたビューの合成が低下します。この課題に対処するために、我々は、凍結拡散モデル、拡散モデルの潜在意味空間を編集するために提案されたデルタ モジュール、および NeRF で構成される Edit-DiffNeRF フレームワークを提案します。各シーンの拡散全体をトレーニングする代わりに、私たちの方法は、デルタ モジュールによって凍結された事前トレーニングされた拡散モデル内の潜在的な意味空間を編集することに焦点を当てています。標準拡散フレームワークに対するこの根本的な変更により、レンダリングされたビューにきめ細かい変更を加え、NeRF トレーニングを通じてこれらの命令を 3D シーンに効果的に統合できるようになります。その結果、入力されたテキストの指示に忠実に一致する編集済み 3D シーンを生成することができます。さらに、異なる視点間で意味的一貫性を確保するために、入力ビューから潜在的な意味埋め込みを事前として抽出する新しいマルチビュー意味的一貫性損失を提案し、それを異なるビューで再構築することを目的としています。私たちが提案した方法は、現実世界の 3D シーンを効果的に編集することが示されており、その結果、実行された 3D 編集とテキスト命令の位置合わせが従来の研究と比較して 25% 向上しました。
Recent research has demonstrated that the combination of pretrained diffusion models with neural radiance fields (NeRFs) has emerged as a promising approach for text-to-3D generation. Simply coupling NeRF with diffusion models will result in cross-view inconsistency and degradation of stylized view syntheses. To address this challenge, we propose the Edit-DiffNeRF framework, which is composed of a frozen diffusion model, a proposed delta module to edit the latent semantic space of the diffusion model, and a NeRF. Instead of training the entire diffusion for each scene, our method focuses on editing the latent semantic space in frozen pretrained diffusion models by the delta module. This fundamental change to the standard diffusion framework enables us to make fine-grained modifications to the rendered views and effectively consolidate these instructions in a 3D scene via NeRF training. As a result, we are able to produce an edited 3D scene that faithfully aligns to input text instructions. Furthermore, to ensure semantic consistency across different viewpoints, we propose a novel multi-view semantic consistency loss that extracts a latent semantic embedding from the input view as a prior, and aim to reconstruct it in different views. Our proposed method has been shown to effectively edit real-world 3D scenes, resulting in 25% improvement in the alignment of the performed 3D edits with text instructions compared to prior work.