arXiv reaDer
感情制御可能な一般化された話す顔の生成
Emotion-Controllable Generalized Talking Face Generation
近年の大きな進歩にもかかわらず、AIベースの話す顔の生成方法のほとんどは自然な感情を表現しようとはしていません。さらに、メソッドの範囲は主にトレーニングデータセットの特性に限定されているため、任意の見えない顔に一般化することはできません。本論文では、任意の顔に一般化できるワンショット顔形状認識感情会話顔生成法を提案する。音声コンテンツ機能を使用するグラフ畳み込みニューラルネットワークを、独立した感情入力とともに提案して、顔のジオメトリを意識したランドマーク表現で感情と音声誘導モーションを生成します。この表現は、テクスチャを生成するためのオプティカルフローガイドテクスチャ生成ネットワークでさらに使用されます。モーションとテクスチャのコンテンツを独立して考慮するように設計されたモーションとテクスチャのブランチを備えた、2つのブランチのテクスチャ生成ネットワークを提案します。以前の感情を話す顔の方法と比較して、私たちの方法は、中立的な感情のターゲットアイデンティティの単一の画像のみを微調整することにより、野生でキャプチャされた任意の顔に適応できます。
Despite the significant progress in recent years, very few of the AI-based talking face generation methods attempt to render natural emotions. Moreover, the scope of the methods is majorly limited to the characteristics of the training dataset, hence they fail to generalize to arbitrary unseen faces. In this paper, we propose a one-shot facial geometry-aware emotional talking face generation method that can generalize to arbitrary faces. We propose a graph convolutional neural network that uses speech content feature, along with an independent emotion input to generate emotion and speech-induced motion on facial geometry-aware landmark representation. This representation is further used in our optical flow-guided texture generation network for producing the texture. We propose a two-branch texture generation network, with motion and texture branches designed to consider the motion and texture content independently. Compared to the previous emotion talking face methods, our method can adapt to arbitrary faces captured in-the-wild by fine-tuning with only a single image of the target identity in neutral emotion.
updated: Mon May 02 2022 18:41:36 GMT+0000 (UTC)
published: Mon May 02 2022 18:41:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト