arXiv reaDer
コンテンツと感情のもつれを解きほぐした感情的なスピーチ主導のアニメーション
Emotional Speech-Driven Animation with Content-Emotion Disentanglement
3D 顔アバターを広く採用するには、音声信号から簡単に、リアルに、直接アニメーション化する必要があります。最近の最良の方法は、入力音声と同期した 3D アニメーションを生成しますが、顔の表情に対する感情の影響をほとんど無視しています。代わりに、彼らは音声と顔の動きの間の相関関係をモデル化することに焦点を当てており、その結果、感情のないアニメーション、または入力された感情と一致しないアニメーションが生成されます。顔のアニメーションには、音声と感情という 2 つの要因があることがわかりました。これらの洞察を EMOTE (感情と会話するために最適化された表現モデル) で活用します。これにより、感情表現を明示的に制御しながら口パクを維持する 3D トーキング ヘッド アバターが生成されます。音声と位置合わせされた高品質の感情的な 3D 顔データセットが存在しないため、EMOTE は感情的なビデオ データセット (つまり、MEAD) からトレーニングされます。これを達成するために、生成されたシーケンスとターゲットビデオの間で音声コンテンツを感情コンテンツとは異なる方法で照合します。具体的には、シーケンス レベル (空間的にグローバルで低周波数) で感情の監視を利用しながら、発話に依存する内容 (空間的に局所的で高い時間周波数) を保存するために、読唇目標の形で追加の監視を使用して EMOTE をトレーニングします。さらに、唇の動きを音声と同期させながら、同じ音声上で異なる感情を監視するために、内容と感情の交換メカニズムを採用しています。望ましくないアーティファクトを生じさせることなく深い知覚損失を採用するために、時間的 VAE の形式でモーション プリアを考案します。広範な定性的、定量的、知覚的評価により、EMOTE が最先端の音声駆動の顔アニメーションを生成し、最良の方法と同等のリップシンクを備えながら、追加の高品質な感情制御を提供できることが実証されています。
To be widely adopted, 3D facial avatars need to be animated easily, realistically, and directly, from speech signals. While the best recent methods generate 3D animations that are synchronized with the input audio, they largely ignore the impact of emotions on facial expressions. Instead, their focus is on modeling the correlations between speech and facial motion, resulting in animations that are unemotional or do not match the input emotion. We observe that there are two contributing factors resulting in facial animation - the speech and the emotion. We exploit these insights in EMOTE (Expressive Model Optimized for Talking with Emotion), which generates 3D talking head avatars that maintain lip sync while enabling explicit control over the expression of emotion. Due to the absence of high-quality aligned emotional 3D face datasets with speech, EMOTE is trained from an emotional video dataset (i.e., MEAD). To achieve this, we match speech-content between generated sequences and target videos differently from emotion content. Specifically, we train EMOTE with additional supervision in the form of a lip-reading objective to preserve the speech-dependent content (spatially local and high temporal frequency), while utilizing emotion supervision on a sequence-level (spatially global and low frequency). Furthermore, we employ a content-emotion exchange mechanism in order to supervise different emotion on the same audio, while maintaining the lip motion synchronized with the speech. To employ deep perceptual losses without getting undesirable artifacts, we devise a motion prior in form of a temporal VAE. Extensive qualitative, quantitative, and perceptual evaluations demonstrate that EMOTE produces state-of-the-art speech-driven facial animations, with lip sync on par with the best methods while offering additional, high-quality emotional control.
updated: Thu Jun 15 2023 09:31:31 GMT+0000 (UTC)
published: Thu Jun 15 2023 09:31:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト