単なるテキスト プロンプトから非常にリアルな 2D 画像を生成する機能は、画像拡散モデルの出現により、速度と品質の点で最近大きな進歩を遂げました。当然、このようなテキスト プロンプトからの 3D コンテンツの生成でもこれを実現できるかどうかという疑問が生じます。この目的のために、ビュー依存のプロンプトを使用して 3D モデル生成を監視するために、2D 画像でトレーニングされた拡散モデルを利用しようとする新しい一連の方法が最近登場しました。ただし、これらの方法には印象的な結果が得られる一方で、2 つの大きな欠点があります。まず、一般的に使用される 3D メッシュではなく、代わりにニューラル ラジアンス フィールド (NeRF) を生成するため、ほとんどの実際のアプリケーションでは実用的ではありません。第 2 に、これらのアプローチは過度に飽和したモデルを生成する傾向があり、出力に漫画のような効果を与えます。したがって、この作業では、非常にリアルに見える 3D メッシュを生成するための新しい方法を提案します。この目的のために、NeRF を拡張して SDF バックボーンを採用し、3D メッシュ抽出を改善しました。さらに、メッシュ テクスチャを微調整する新しい方法を提案し、高彩度の影響を取り除き、出力 3D メッシュの詳細を改善します。
The ability to generate highly realistic 2D images from mere text prompts has recently made huge progress in terms of speed and quality, thanks to the advent of image diffusion models. Naturally, the question arises if this can be also achieved in the generation of 3D content from such text prompts. To this end, a new line of methods recently emerged trying to harness diffusion models, trained on 2D images, for supervision of 3D model generation using view dependent prompts. While achieving impressive results, these methods, however, have two major drawbacks. First, rather than commonly used 3D meshes, they instead generate neural radiance fields (NeRFs), making them impractical for most real applications. Second, these approaches tend to produce over-saturated models, giving the output a cartoonish looking effect. Therefore, in this work we propose a novel method for generation of highly realistic-looking 3D meshes. To this end, we extend NeRF to employ an SDF backbone, leading to improved 3D mesh extraction. In addition, we propose a novel way to finetune the mesh texture, removing the effect of high saturation and improving the details of the output 3D mesh.