arXiv reaDer
オーディオ駆動の感情的なビデオポートレート
Audio-Driven Emotional Video Portraits
オーディオ駆動のトーキングヘッズの生成における以前の成功にもかかわらず、以前の研究のほとんどは、音声コンテンツと口の形との間の相関に焦点を合わせています。自然な人間の顔の最も重要な特徴の1つである顔の感情は、彼らの方法では常に無視されています。この作品では、オーディオによって駆動される鮮やかな感情のダイナミクスで高品質のビデオポートレートを合成するためのシステムであるEmotional Video Portraits(EVP)を紹介します。具体的には、音声を2つの分離された空間、つまり、持続時間に依存しない感情空間と持続時間に依存するコンテンツ空間に分解する、相互再構成された感情解きほぐし手法を提案します。解きほぐされた機能により、ダイナミックな2Dの感情的な顔のランドマークを推測できます。次に、ターゲットビデオの推定ランドマークと自然な頭のポーズの間のギャップを埋めることにより、最終的な高品質のビデオポートレートを生成するためのターゲット適応顔合成手法を提案します。広範な実験は、定性的および定量的の両方で私たちの方法の有効性を示しています。
Despite previous success in generating audio-driven talking heads, most of the previous studies focus on the correlation between speech content and the mouth shape. Facial emotion, which is one of the most important features on natural human faces, is always neglected in their methods. In this work, we present Emotional Video Portraits (EVP), a system for synthesizing high-quality video portraits with vivid emotional dynamics driven by audios. Specifically, we propose the Cross-Reconstructed Emotion Disentanglement technique to decompose speech into two decoupled spaces, i.e., a duration-independent emotion space and a duration dependent content space. With the disentangled features, dynamic 2D emotional facial landmarks can be deduced. Then we propose the Target-Adaptive Face Synthesis technique to generate the final high-quality video portraits, by bridging the gap between the deduced landmarks and the natural head poses of target videos. Extensive experiments demonstrate the effectiveness of our method both qualitatively and quantitatively.
updated: Thu May 20 2021 02:48:26 GMT+0000 (UTC)
published: Thu Apr 15 2021 13:37:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト