しゃべる顔の生成は、歴史的に、追加の参照ビデオからのガイダンスなしでは、頭の動きと自然な表情を生成するのに苦労してきました。拡散ベースの生成モデルの最近の開発により、より現実的で安定したデータ合成が可能になり、画像とビデオの生成におけるパフォーマンスは他の生成モデルのパフォーマンスを上回りました。この作業では、現実的な話している人間の頭のビデオを生成するために 1 つの ID イメージとオーディオ シーケンスのみを必要とする自己回帰拡散モデルを提示します。私たちのソリューションは、頭の動き、まばたきなどの顔の表情を幻覚させ、特定の背景を維持することができます。 2 つの異なるデータセットでモデルを評価し、両方で最先端の結果を達成します。
Talking face generation has historically struggled to produce head movements and natural facial expressions without guidance from additional reference videos. Recent developments in diffusion-based generative models allow for more realistic and stable data synthesis and their performance on image and video generation has surpassed that of other generative models. In this work, we present an autoregressive diffusion model that requires only one identity image and audio sequence to generate a video of a realistic talking human head. Our solution is capable of hallucinating head movements, facial expressions, such as blinks, and preserving a given background. We evaluate our model on two different datasets, achieving state-of-the-art results on both of them.