arXiv reaDer
Talking Head Generation with Audio and Speech Related Facial Action Units
トーキングヘッド生成のタスクは、任意の顔画像とオーディオクリップを入力することにより、唇に同期したトーキングヘッドビデオを合成することです。ほとんどの既存の方法は、口の筋肉の局所的な運転情報を無視します。この論文では、音声と音声に関連する顔のアクションユニット(AU)の両方を運転情報として使用する新しい反復生成ネットワークを提案します。口に関連するすべての情報は、口の動きをより正確に導くことができます。音声は音声関連のAUと高度に相関しているため、音声から音声関連のAU情報を予測するために、システムにAudio-to-AUモジュールを提案します。さらに、AU分類器を使用して、生成された画像に正しいAU情報が含まれていることを確認します。フレーム弁別器は、生成された顔のリアリズムを向上させるための敵対訓練用にも構築されています。 GRIDデータセットとTCD-TIMITデータセットでモデルの有効性を検証します。また、モデル内の各コンポーネントの寄与を検証するために、アブレーション調査を実施します。定量的および定性的実験は、私たちの方法が画質とリップシンク精度の両方で既存の方法よりも優れていることを示しています。
The task of talking head generation is to synthesize a lip synchronized talking head video by inputting an arbitrary face image and audio clips. Most existing methods ignore the local driving information of the mouth muscles. In this paper, we propose a novel recurrent generative network that uses both audio and speech-related facial action units (AUs) as the driving information. AU information related to the mouth can guide the movement of the mouth more accurately. Since speech is highly correlated with speech-related AUs, we propose an Audio-to-AU module in our system to predict the speech-related AU information from speech. In addition, we use AU classifier to ensure that the generated images contain correct AU information. Frame discriminator is also constructed for adversarial training to improve the realism of the generated face. We verify the effectiveness of our model on the GRID dataset and TCD-TIMIT dataset. We also conduct an ablation study to verify the contribution of each component in our model. Quantitative and qualitative experiments demonstrate that our method outperforms existing methods in both image quality and lip-sync accuracy.
updated: Tue Oct 19 2021 13:14:27 GMT+0000 (UTC)
published: Tue Oct 19 2021 13:14:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト