Text-to-3D は、ユーザーが無限の可能性を秘めた 3D コンテンツを作成できるようにする新しいタスクです。既存の研究では、事前にトレーニングされた拡散モデルからのガイダンスに従って 3D 表現を最適化することで、この問題に取り組んでいます。明らかな欠点は、プロンプトごとに最初から最適化する必要があることであり、これには計算コストがかかり、多くの場合、視覚的な忠実度が低くなります。この論文では、効率化のために単一の前方パスでテキストガイド付きの 3D 認識ポートレートを生成することを目的とした DreamPortrait を提案します。これを達成するために、スコア蒸留サンプリングをデータポイントから分布定式化まで拡張し、セマンティック事前を 3D 分布に注入します。ただし、直接拡張すると、目的が意味論的な整合性のみを追求するため、モード崩壊の問題が発生します。したがって、階層的条件アダプターと GAN 損失正則化を使用して分布を最適化することを提案します。 3D モデリングをより良くするために、テキストと 3D 認識空間の間の対応をモデルに明示的に認識させるために、3D 認識ゲートクロスアテンションメカニズムをさらに設計します。これらの精緻な設計により、私たちのモデルは堅牢なマルチビューの意味論的一貫性を備えたポートレートを生成できるようになり、最適化ベースの手法が不要になります。広範な実験により、当社のモデルの非常に競争力のあるパフォーマンスと、既存の方法に対する大幅な速度向上が実証されました。
Text-to-3D is an emerging task that allows users to create 3D content with infinite possibilities. Existing works tackle the problem by optimizing a 3D representation with guidance from pre-trained diffusion models. An apparent drawback is that they need to optimize from scratch for each prompt, which is computationally expensive and often yields poor visual fidelity. In this paper, we propose DreamPortrait, which aims to generate text-guided 3D-aware portraits in a single-forward pass for efficiency. To achieve this, we extend Score Distillation Sampling from datapoint to distribution formulation, which injects semantic prior into a 3D distribution. However, the direct extension will lead to the mode collapse problem since the objective only pursues semantic alignment. Hence, we propose to optimize a distribution with hierarchical condition adapters and GAN loss regularization. For better 3D modeling, we further design a 3D-aware gated cross-attention mechanism to explicitly let the model perceive the correspondence between the text and the 3D-aware space. These elaborated designs enable our model to generate portraits with robust multi-view semantic consistency, eliminating the need for optimization-based methods. Extensive experiments demonstrate our model's highly competitive performance and significant speed boost against existing methods.