arXiv reaDer
それは私が言ったことです:完全に制御可能なトーキングフェイスの生成
That's What I Said: Fully-Controllable Talking Face Generation
この論文の目標は、話している顔と制御可能な顔の動きを合成することです。この目標を達成するために、私たちは 2 つの重要なアイデアを提案します。 1 つ目は、すべての顔のモーション パターンが同じでアイデンティティが異なる正規空間を確立することです。 2 つ目は、アイデンティティ情報を排除しながら、モーション関連の機能のみを表すマルチモーダル モーション スペースをナビゲートすることです。アイデンティティとモーションを解きほぐすために、2 つの異なる潜在空間の間に直交性制約を導入します。これから、私たちの方法は、完全に制御可能な顔の属性と正確な唇の同期を備えた、自然に見える話し顔を生成できます。広範な実験により、私たちの方法が視覚的品質とリップシンクスコアの両方に関して最先端の結果を達成することが実証されています。私たちの知る限りでは、音声付きの RGB ビデオ以外の追加の監督なしで、生成されたビデオで唇、頭のポーズ、目の動きを含む完全なターゲットの顔の動きを正確にマニフェストできる話し顔生成フレームワークを開発したのは、私たちが初めてです。
The goal of this paper is to synthesise talking faces with controllable facial motions. To achieve this goal, we propose two key ideas. The first is to establish a canonical space where every face has the same motion patterns but different identities. The second is to navigate a multimodal motion space that only represents motion-related features while eliminating identity information. To disentangle identity and motion, we introduce an orthogonality constraint between the two different latent spaces. From this, our method can generate natural-looking talking faces with fully controllable facial attributes and accurate lip synchronisation. Extensive experiments demonstrate that our method achieves state-of-the-art results in terms of both visual quality and lip-sync score. To the best of our knowledge, we are the first to develop a talking face generation framework that can accurately manifest full target facial motions including lip, head pose, and eye movements in the generated video without any additional supervision beyond RGB video with audio.
updated: Mon Sep 18 2023 12:45:41 GMT+0000 (UTC)
published: Thu Apr 06 2023 17:56:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト