現在の顔アニメーション方法では表情を個別に操作できますが、いくつかの制限があります。一部のモーションベースの顔の再現モデルによって操作される表情は粗雑です。顔の動作ユニットでモデル化された他のアイデアは、注釈でカバーされていない任意の表現に一般化することはできません。この論文では、パラメトリック 3D 顔表現に基づいており、表情を安定して分離できる新しい幾何学認識顔表情変換 (GaFET) フレームワークを紹介します。その中で、空間的特徴の位置合わせの課題に対処しながら、非幾何学的顔の詳細特徴を補完するために、マルチレベルの特徴位置合わせトランスフォーマーが提案されています。さらに、ペアになっていない「野生の」画像におけるGaFETの学習の困難さを軽減するために、StyleGANに基づいて非表現モデルを設計します。広範な定性的および定量的な実験により、最先端の手法と比較して高品質かつ正確な表情転写結果が得られることが実証され、さまざまなポーズや複雑なテクスチャの適用可能性が実証されています。さらに、ビデオや注釈付きトレーニング データが省略されているため、メソッドが使いやすく、一般化されやすくなっています。
While current face animation methods can manipulate expressions individually, they suffer from several limitations. The expressions manipulated by some motion-based facial reenactment models are crude. Other ideas modeled with facial action units cannot generalize to arbitrary expressions not covered by annotations. In this paper, we introduce a novel Geometry-aware Facial Expression Translation (GaFET) framework, which is based on parametric 3D facial representations and can stably decoupled expression. Among them, a Multi-level Feature Aligned Transformer is proposed to complement non-geometric facial detail features while addressing the alignment challenge of spatial features. Further, we design a De-expression model based on StyleGAN, in order to reduce the learning difficulty of GaFET in unpaired "in-the-wild" images. Extensive qualitative and quantitative experiments demonstrate that we achieve higher-quality and more accurate facial expression transfer results compared to state-of-the-art methods, and demonstrate applicability of various poses and complex textures. Besides, videos or annotated training data are omitted, making our method easier to use and generalize.