DreamWaltz は、事前にテキスト ガイダンスとパラメトリック人体を与えられた複雑な 3D アバターを生成およびアニメーション化するための新しいフレームワークです。最近の手法では、一般的なオブジェクトのテキストから 3D への生成に関して有望な結果が示されていますが、高品質でアニメーション化可能な 3D アバターを作成することは依然として困難です。高品質の 3D アバターを作成するために、DreamWaltz は 3D 一貫性のあるオクルージョンを意識したスコア蒸留サンプリング (SDS) を提案し、標準ポーズによる暗黙的なニューラル表現を最適化します。 3D 対応のスケルトン コンディショニングを介してビューに合わせた監視を提供し、アーティファクトや複数の顔のない複雑なアバターの生成を可能にします。アニメーションの場合、私たちのメソッドは、任意のポーズを正規のポーズ表現にマッピングできる、アニメーション化可能で一般化可能なアバター表現を学習します。広範な評価により、DreamWaltz が、複雑な形状や外観、アニメーション用の斬新なポーズを取ることができる 3D アバターを作成するための効果的かつ堅牢なアプローチであることが実証されています。提案されたフレームワークはさらに、アバターとアバター、アバターとオブジェクト、アバターとシーンの相互作用を含む、多様な構成を持つ複雑なシーンの作成を可能にします。より鮮明な 3D アバターとアニメーションの結果については、https://dreamwaltz3d.github.io/ を参照してください。
We present DreamWaltz, a novel framework for generating and animating complex 3D avatars given text guidance and parametric human body prior. While recent methods have shown encouraging results for text-to-3D generation of common objects, creating high-quality and animatable 3D avatars remains challenging. To create high-quality 3D avatars, DreamWaltz proposes 3D-consistent occlusion-aware Score Distillation Sampling (SDS) to optimize implicit neural representations with canonical poses. It provides view-aligned supervision via 3D-aware skeleton conditioning which enables complex avatar generation without artifacts and multiple faces. For animation, our method learns an animatable and generalizable avatar representation which could map arbitrary poses to the canonical pose representation. Extensive evaluations demonstrate that DreamWaltz is an effective and robust approach for creating 3D avatars that can take on complex shapes and appearances as well as novel poses for animation. The proposed framework further enables the creation of complex scenes with diverse compositions, including avatar-avatar, avatar-object and avatar-scene interactions. See https://dreamwaltz3d.github.io/ for more vivid 3D avatar and animation results.