arXiv reaDer
Text2Room: 2D Text-to-Image モデルからのテクスチャ付き 3D メッシュの抽出
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models
入力として指定されたテキスト プロンプトからルーム スケールのテクスチャ 3D メッシュを生成する方法である Text2Room を紹介します。この目的のために、事前トレーニング済みの 2D テキストから画像へのモデルを活用して、さまざまなポーズから一連の画像を合成します。これらの出力を一貫性のある 3D シーン表現に持ち上げるために、単眼深度推定とテキスト調整修復モデルを組み合わせます。私たちのアプローチの核となるアイデアは、各画像のコンテンツをシームレスなテクスチャ 3D メッシュに融合できるように、視点を合わせて選択することです。より具体的には、シームレスなメッシュを作成するために、シーン フレームを既存のジオメトリと繰り返し融合する連続アライメント戦略を提案します。テキストから単一のオブジェクトまたはズームアウト軌跡を生成することに焦点を当てた既存の作品とは異なり、この方法は、複数のオブジェクトと明示的な 3D ジオメトリを含む完全な 3D シーンを生成します。質的および量的指標を使用してアプローチを評価し、入力としてテキストのみから説得力のあるテクスチャを使用してルーム スケールの 3D ジオメトリを生成する最初の方法であることを示します。
We present Text2Room, a method for generating room-scale textured 3D meshes from a given text prompt as input. To this end, we leverage pre-trained 2D text-to-image models to synthesize a sequence of images from different poses. In order to lift these outputs into a consistent 3D scene representation, we combine monocular depth estimation with a text-conditioned inpainting model. The core idea of our approach is a tailored viewpoint selection such that the content of each image can be fused into a seamless, textured 3D mesh. More specifically, we propose a continuous alignment strategy that iteratively fuses scene frames with the existing geometry to create a seamless mesh. Unlike existing works that focus on generating single objects or zoom-out trajectories from text, our method generates complete 3D scenes with multiple objects and explicit 3D geometry. We evaluate our approach using qualitative and quantitative metrics, demonstrating it as the first method to generate room-scale 3D geometry with compelling textures from only text as input.
updated: Tue Mar 21 2023 16:21:02 GMT+0000 (UTC)
published: Tue Mar 21 2023 16:21:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト