この論文では、生成される 3D モデルの品質と詳細を向上させるために、2D 拡散事前分布を活用した Text-to-3D コンテンツ生成について研究します。 text-to-3D における最近の進歩 (Magic3D) では、高解像度 (例: 512 x 512) レンダリングを採用すると、潜在拡散事前分布を使用して高品質の 3D モデルを作成できることが示されました。モデルの品質と詳細をさらに向上させる可能性があるさらに高い解像度でのレンダリングを可能にするために、複数のノイズ推定プロセスと事前学習済みの 2D 拡散を組み合わせた新しいアプローチを提案します。複数のノイズ除去結果を結合してテキストから画像を生成する Bar-Tal らの研究とは異なり、私たちのアプローチは、2D による 3D コンテンツ生成に不可欠な技術である SDS 損失や VSD 損失などの蒸留損失のスコアリングの計算を統合しています。拡散事前。提案されたアプローチを実験的に評価しました。結果は、提案されたアプローチがベースラインと比較して高品質の詳細を生成できることを示しています。
In this paper, we study Text-to-3D content generation leveraging 2D diffusion priors to enhance the quality and detail of the generated 3D models. Recent progress (Magic3D) in text-to-3D has shown that employing high-resolution (e.g., 512 x 512) renderings can lead to the production of high-quality 3D models using latent diffusion priors. To enable rendering at even higher resolutions, which has the potential to further augment the quality and detail of the models, we propose a novel approach that combines multiple noise estimation processes with a pretrained 2D diffusion prior. Distinct from the Bar-Tal et al.s' study which binds multiple denoised results to generate images from texts, our approach integrates the computation of scoring distillation losses such as SDS loss and VSD loss which are essential techniques for the 3D content generation with 2D diffusion priors. We experimentally evaluated the proposed approach. The results show that the proposed approach can generate high-quality details compared to the baselines.