ディープ生成モデルの最近の進歩により、写真のようにリアルな顔画像の合成と編集において印象的な結果が示されました。表情は本質的に筋肉の動きの結果です。ただし、既存のニューラルネットワークベースのアプローチは、通常、テクスチャ生成のみに依存して式を編集し、モーション情報を大幅に無視します。この作業では、顔の編集作業を「「モーション編集」ステップと「テクスチャ編集」ステップの2つのステップに分解する新しいエンドツーエンドネットワークを提案します。 「画像編集」ステップでは、写真のようにリアルな結果を得るために、歯やシェーディング効果などの必要なテクスチャを生成します。タスクの解きほぐしシステムの設計により、各ステップで焦点を絞ったタスクを学習できるため、モーションを幻覚させるためにテクスチャを生成する必要がなくなります。表情の表現、私たちの方法は、定性的および定量的評価の両方で最先端の表情編集パフォーマンスを向上させます。
Recent advances in deep generative models have demonstrated impressive results in photo-realistic facial image synthesis and editing. Facial expressions are inherently the result of muscle movement. However, existing neural network-based approaches usually only rely on texture generation to edit expressions and largely neglect the motion information. In this work, we propose a novel end-to-end network that disentangles the task of facial editing into two steps: a " "motion-editing" step and a "texture-editing" step. In the "motion-editing" step, we explicitly model facial movement through image deformation, warping the image into the desired expression. In the "texture-editing" step, we generate necessary textures, such as teeth and shading effects, for a photo-realistic result. Our physically-based task-disentanglement system design allows each step to learn a focused task, removing the need of generating texture to hallucinate motion. Our system is trained in a self-supervised manner, requiring no ground truth deformation annotation. Using Action Units [8] as the representation for facial expression, our method improves the state-of-the-art facial expression editing performance in both qualitative and quantitative evaluations.