arXiv reaDer
MakeItTalk:スピーカーを意識した会話-ヘッドアニメーション
MakeItTalk: Speaker-Aware Talking-Head Animation
音声のみを入力として、単一の顔画像から表現力豊かなトーキングヘッズを生成する方法を紹介します。話している顔を作成するために音声から生のピクセルまたはポイントへの直接マッピングを学習しようとする以前のアプローチとは対照的に、私たちの方法は最初に入力音声信号のコンテンツと話者情報を解きほぐします。音声コンテンツは唇と近くの顔の領域の動きをしっかりと制御し、話者の情報は顔の表情と残りの話す頭のダイナミクスの詳細を決定します。私たちの方法のもう1つの重要な要素は、話者を意識したダイナミクスを反映した顔のランドマークの予測です。この中間表現に基づいて、私たちの方法は、話す頭全体の写実的なビデオをあらゆる動きで合成し、芸術的な絵画、スケッチ、2D漫画のキャラクター、日本のマンガ、様式化された似顔絵を単一の統一されたフレームワークでアニメーション化することができます。ユーザーの研究に加えて、私たちの方法の広範な定量的および定性的評価を提示し、以前の最先端技術と比較して大幅に高品質の生成されたトーキングヘッドを示しています。
We present a method that generates expressive talking heads from a single facial image with audio as the only input. In contrast to previous approaches that attempt to learn direct mappings from audio to raw pixels or points for creating talking faces, our method first disentangles the content and speaker information in the input audio signal. The audio content robustly controls the motion of lips and nearby facial regions, while the speaker information determines the specifics of facial expressions and the rest of the talking head dynamics. Another key component of our method is the prediction of facial landmarks reflecting speaker-aware dynamics. Based on this intermediate representation, our method is able to synthesize photorealistic videos of entire talking heads with full range of motion and also animate artistic paintings, sketches, 2D cartoon characters, Japanese mangas, stylized caricatures in a single unified framework. We present extensive quantitative and qualitative evaluation of our method, in addition to user studies, demonstrating generated talking heads of significantly higher quality compared to prior state-of-the-art.
updated: Thu Feb 25 2021 17:57:03 GMT+0000 (UTC)
published: Mon Apr 27 2020 17:56:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト