3D 顔アバターの再構成は、コンピュータ グラフィックスおよびコンピュータ ビジョンにおける重要な研究テーマであり、写真のようにリアルなレンダリングとポーズや表情の柔軟な制御が多くの関連アプリケーションに必要となります。最近、神経放射フィールド (NeRF) の開発により、その性能が大幅に向上しました。しかし、既存の NeRF ベースの顔アバターのほとんどは、被写体固有の再構築と再現に重点を置いており、トレーニングには特定の被写体のさまざまなビューを含むマルチショット画像が必要であり、学習されたモデルは新しいアイデンティティに一般化できず、さらなる応用が制限されます。この研究では、高忠実度の 3D 顔アバターを再構築するために単一のソース画像のみを必要とする、ワンショット 3D 顔アバター再構築フレームワークを提案します。一般化能力の欠如とマルチビュー情報の欠落という課題に対して、3D GAN の事前生成を活用し、ソース画像の正準神経ボリュームを再構築するための効率的なエンコーダ/デコーダ ネットワークを開発し、さらに顔の輪郭を補完する補償ネットワークを提案します。詳細。顔のダイナミクスをきめ細かく制御できるようにするために、正準ボリュームを駆動された表情にワープする変形フィールドを提案します。広範な実験比較を通じて、いくつかの最先端の方法と比較して優れた合成結果が得られます。
3D facial avatar reconstruction has been a significant research topic in computer graphics and computer vision, where photo-realistic rendering and flexible controls over poses and expressions are necessary for many related applications. Recently, its performance has been greatly improved with the development of neural radiance fields (NeRF). However, most existing NeRF-based facial avatars focus on subject-specific reconstruction and reenactment, requiring multi-shot images containing different views of the specific subject for training, and the learned model cannot generalize to new identities, limiting its further applications. In this work, we propose a one-shot 3D facial avatar reconstruction framework that only requires a single source image to reconstruct a high-fidelity 3D facial avatar. For the challenges of lacking generalization ability and missing multi-view information, we leverage the generative prior of 3D GAN and develop an efficient encoder-decoder network to reconstruct the canonical neural volume of the source image, and further propose a compensation network to complement facial details. To enable fine-grained control over facial dynamics, we propose a deformation field to warp the canonical volume into driven expressions. Through extensive experimental comparisons, we achieve superior synthesis results compared to several state-of-the-art methods.