arXiv reaDer
RenderDiffusion: 3D 再構成、修復、および生成のための画像拡散
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation
拡散モデルは現在、条件付き画像生成と無条件画像生成の両方で最先端のパフォーマンスを実現しています。ただし、これまでのところ、画像拡散モデルは、ビュー一貫性のある 3D 生成や単一ビュー オブジェクトの再構成など、3D の理解に必要なタスクをサポートしていません。このホワイト ペーパーでは、3D 生成と推論のための最初の拡散モデルである RenderDiffusion を紹介し、単眼 2D 監視のみを使用してトレーニングしました。私たちの方法の中心は、各ノイズ除去ステップでシーンの中間の 3 次元表現を生成してレンダリングする新しい画像ノイズ除去アーキテクチャです。これにより、拡散プロセス内で強力な誘導構造が強化され、2D の監視だけで 3D の一貫した表現が提供されます。結果の 3D 表現は、どのビューからでもレンダリングできます。 FFHQ、AFHQ、ShapeNet、および CLEVR データセットで RenderDiffusion を評価し、3D シーンの生成と 2D 画像からの 3D シーンの推論で競争力のあるパフォーマンスを示します。さらに、拡散ベースのアプローチにより、2D インペインティングを使用して 3D シーンを編集できます。
Diffusion models currently achieve state-of-the-art performance for both conditional and unconditional image generation. However, so far, image diffusion models do not support tasks required for 3D understanding, such as view-consistent 3D generation or single-view object reconstruction. In this paper, we present RenderDiffusion, the first diffusion model for 3D generation and inference, trained using only monocular 2D supervision. Central to our method is a novel image denoising architecture that generates and renders an intermediate three-dimensional representation of a scene in each denoising step. This enforces a strong inductive structure within the diffusion process, providing a 3D consistent representation while only requiring 2D supervision. The resulting 3D representation can be rendered from any view. We evaluate RenderDiffusion on FFHQ, AFHQ, ShapeNet and CLEVR datasets, showing competitive performance for generation of 3D scenes and inference of 3D scenes from 2D images. Additionally, our diffusion-based approach allows us to use 2D inpainting to edit 3D scenes.
updated: Tue Feb 06 2024 21:12:24 GMT+0000 (UTC)
published: Thu Nov 17 2022 20:17:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト