自然言語の記述から高品質の 3D 顔モデルを合成することは、アバターの作成、仮想現実、テレプレゼンスなど、多くのアプリケーションにとって非常に価値があります。ただし、このタスクを利用した研究はほとんどありません。主な障害は、1) 説明的なテキスト注釈を含む高品質の 3D 顔データの欠如、および 2) 説明的な言語空間と形状/外観空間の間の複雑なマッピング関係にあると主張します。これらの問題を解決するために、Describe3D データセットを構築します。これは、テキストから 3D への顔生成タスクのためのきめの細かいテキスト記述を備えた最初の大規模なデータセットです。次に、最初に具体的な記述に一致する 3D 顔を生成し、次に抽象的な記述で 3D 形状およびテクスチャ空間のパラメータを最適化して 3D 顔モデルを改良する 2 段階のフレームワークを提案します。広範な実験結果は、私たちの方法が以前の方法よりも高い精度と品質で入力の説明に準拠する忠実な 3D 顔を生成できることを示しています。コードと Describe3D データセットは https://github.com/zhuhao-nju/describe3d でリリースされています。
Synthesizing high-quality 3D face models from natural language descriptions is very valuable for many applications, including avatar creation, virtual reality, and telepresence. However, little research ever tapped into this task. We argue the major obstacle lies in 1) the lack of high-quality 3D face data with descriptive text annotation, and 2) the complex mapping relationship between descriptive language space and shape/appearance space. To solve these problems, we build Describe3D dataset, the first large-scale dataset with fine-grained text descriptions for text-to-3D face generation task. Then we propose a two-stage framework to first generate a 3D face that matches the concrete descriptions, then optimize the parameters in the 3D shape and texture space with abstract description to refine the 3D face model. Extensive experimental results show that our method can produce a faithful 3D face that conforms to the input descriptions with higher accuracy and quality than previous methods. The code and Describe3D dataset are released at https://github.com/zhuhao-nju/describe3d .