arXiv reaDer
NeuralField-LDM: 階層的潜在拡散モデルによるシーン生成
NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models
高品質の現実世界の 3D シーンを自動的に生成することは、仮想現実やロボット シミュレーションなどのアプリケーションにとって非常に興味深いものです。この目標に向けて、複雑な 3D 環境を合成できる生成モデルである NeuralField-LDM を導入します。効率的な高品質の 2D コンテンツ作成に成功した潜在拡散モデルを活用します。まず、シーンの自動エンコーダーをトレーニングして、一連の画像とポーズのペアをニューラル フィールドとして表現します。これは、シーンの斬新なビューを生成するために投影できる密度と特徴のボクセル グリッドとして表されます。この表現をさらに圧縮するために、ボクセル グリッドを一連の潜在表現にマッピングする潜在オートエンコーダーをトレーニングします。次に、階層拡散モデルを潜在変数に適合させて、シーン生成パイプラインを完成させます。既存の最先端のシーン生成モデルを大幅に改善します。さらに、条件付きシーン生成、シーン修復、シーン スタイル操作など、さまざまな 3D コンテンツ作成アプリケーションに NeuralField-LDM を使用する方法を示します。
Automatically generating high-quality real world 3D scenes is of enormous interest for applications such as virtual reality and robotics simulation. Towards this goal, we introduce NeuralField-LDM, a generative model capable of synthesizing complex 3D environments. We leverage Latent Diffusion Models that have been successfully utilized for efficient high-quality 2D content creation. We first train a scene auto-encoder to express a set of image and pose pairs as a neural field, represented as density and feature voxel grids that can be projected to produce novel views of the scene. To further compress this representation, we train a latent-autoencoder that maps the voxel grids to a set of latent representations. A hierarchical diffusion model is then fit to the latents to complete the scene generation pipeline. We achieve a substantial improvement over existing state-of-the-art scene generation models. Additionally, we show how NeuralField-LDM can be used for a variety of 3D content creation applications, including conditional scene generation, scene inpainting and scene style manipulation.
updated: Wed Apr 19 2023 16:13:21 GMT+0000 (UTC)
published: Wed Apr 19 2023 16:13:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト