arXiv reaDer
トーキングヘッドビデオ生成のための深さを意識した生成的敵対的ネットワーク
Depth-Aware Generative Adversarial Network for Talking Head Video Generation
トーキングヘッドビデオの生成は、特定のソース画像とドライビングビデオからそれぞれアイデンティティとポーズ情報を含む合成人間の顔のビデオを生成することを目的としています。このタスクの既存の作品は、入力から学習した2D表現(外観や動きなど)に大きく依存しています。画像。ただし、高密度の3D顔ジオメトリ(ピクセル単位の深さなど)は、このタスクにとって非常に重要です。これは、正確な3D顔構造を本質的に生成し、ノイズの多い情報を雑然とした背景から区別することが特に有益だからです。それにもかかわらず、高密度の3Dジオメトリ注釈は、ビデオにとって非常にコストがかかり、通常、このビデオ生成タスクでは使用できません。この論文では、最初に、高価な3D注釈データを必要とせずに、顔のビデオから高密度の3Dジオメトリ(つまり深度)を自動的に復元する、自己監視型のジオメトリ学習方法を紹介します。学習した高密度深度マップに基づいて、それらを活用して、人間の頭の重要な動きをキャプチャするまばらな顔のキーポイントを推定することをさらに提案します。より密度の高い方法では、深度を利用して3D対応のクロスモーダル(つまり、外観と深度)の注意を学習し、ソース画像表現をワープするためのモーションフィールドの生成をガイドします。これらすべての貢献は、話す頭の世代のための新しい深さを意識した生成的敵対的ネットワーク(DaGAN)を構成します。実施された広範な実験は、提案された方法が非常にリアルな顔を生成し、目に見えない人間の顔で重要な結果を達成できることを示しています。
Talking head video generation aims to produce a synthetic human face video that contains the identity and pose information respectively from a given source image and a driving video.Existing works for this task heavily rely on 2D representations (e.g. appearance and motion) learned from the input images. However, dense 3D facial geometry (e.g. pixel-wise depth) is extremely important for this task as it is particularly beneficial for us to essentially generate accurate 3D face structures and distinguish noisy information from the possibly cluttered background. Nevertheless, dense 3D geometry annotations are prohibitively costly for videos and are typically not available for this video generation task. In this paper, we first introduce a self-supervised geometry learning method to automatically recover the dense 3D geometry (i.e.depth) from the face videos without the requirement of any expensive 3D annotation data. Based on the learned dense depth maps, we further propose to leverage them to estimate sparse facial keypoints that capture the critical movement of the human head. In a more dense way, the depth is also utilized to learn 3D-aware cross-modal (i.e. appearance and depth) attention to guide the generation of motion fields for warping source image representations. All these contributions compose a novel depth-aware generative adversarial network (DaGAN) for talking head generation. Extensive experiments conducted demonstrate that our proposed method can generate highly realistic faces, and achieve significant results on the unseen human faces.
updated: Tue Mar 15 2022 01:34:02 GMT+0000 (UTC)
published: Sun Mar 13 2022 09:32:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト