唇の動き、視線とまばたき、頭のポーズ、感情表現を細かく細かく制御する、新しいワンショット トーキング ヘッド合成法を紹介します。絡み合っていない潜在表現を介してさまざまな動きを表現し、画像ジェネレーターを活用して、それらからトーキング ヘッドを合成します。各モーション要因を効果的に解きほぐすために、要因を粗いものから細かい方法で分離することにより、プログレッシブな解きほぐされた表現学習戦略を提案します。ここでは、最初に駆動信号から統一された動きの特徴を抽出し、次に各細かい動きを駆動信号から分離します。統一された機能。構造化されていないビデオ データの各モーション ファクターの固有のプロパティを十分に活用して、もつれの解消を実現するために、モーション固有の対照的な学習と非感情的なモーションの回帰、および感情表現の機能レベルの相関除去と自己再構築を導入します。実験は、我々の方法が、以前の方法ではほとんど達成できなかった、複数の余分な顔の動きに対する正確で絡み合っていない制御とともに、高品質の音声と唇の動きの同期を提供することを示しています。
We present a novel one-shot talking head synthesis method that achieves disentangled and fine-grained control over lip motion, eye gaze&blink, head pose, and emotional expression. We represent different motions via disentangled latent representations and leverage an image generator to synthesize talking heads from them. To effectively disentangle each motion factor, we propose a progressive disentangled representation learning strategy by separating the factors in a coarse-to-fine manner, where we first extract unified motion feature from the driving signal, and then isolate each fine-grained motion from the unified feature. We introduce motion-specific contrastive learning and regressing for non-emotional motions, and feature-level decorrelation and self-reconstruction for emotional expression, to fully utilize the inherent properties of each motion factor in unstructured video data to achieve disentanglement. Experiments show that our method provides high quality speech&lip-motion synchronization along with precise and disentangled control over multiple extra facial motions, which can hardly be achieved by previous methods.