単一の参照画像を使用してトーキングヘッド合成の問題を解決する最近の試みは、有望な結果を示しています。ただし、それらのほとんどは、アイデンティティ保存の問題に対応できないか、特に極端な頭のポーズで、フォトリアリズムの観点からパフォーマンスが低下します。 HeadGANを提案します。これは、3D顔表現で合成を条件付ける新しい再現アプローチであり、任意の運転ビデオから抽出して、任意のソースの顔のジオメトリに適合させることができます。ジェネレータへの補完的な入力としてオーディオ機能を利用することにより、口の動きの妥当性を向上させます。定量的および定性的な実験は、私たちのアプローチのメリットを示しています。
Recent attempts to solve the problem of talking head synthesis using a single reference image have shown promising results. However, most of them fail to meet the identity preservation problem, or perform poorly in terms of photo-realism, especially in extreme head poses. We propose HeadGAN, a novel reenactment approach that conditions synthesis on 3D face representations, which can be extracted from any driving video and adapted to the facial geometry of any source. We improve the plausibility of mouth movements, by utilising audio features as a complementary input to the Generator. Quantitative and qualitative experiments demonstrate the merits of our approach.