この作品では、ニュートラルな顔画像を与えられた6つの基本的な表情のビデオを生成するための新しいアプローチを提案します。超球上の点としてエンコードされた曲線として顔のランドマークの動きをモデル化することにより、顔のジオメトリを活用することを提案します。超球上のモーション生成のための多様な値のヴァッサースタイン生成敵対的ネットワーク(GAN)の条件付きバージョンを提案することにより、さまざまなクラスの表情ダイナミクスの分布を学習し、そこから新しい表情モーションを合成します。結果のモーションは、別の条件付き生成的敵対ネットワークを使用してテクスチャ情報を編集することにより、ランドマークのシーケンスに変換し、次に画像シーケンスに変換できます。私たちの知る限りでは、これはGANを使用して多様な値の表現を探索し、動的な表情生成の問題に対処する最初の作業です。 2つの公開データセットで提案されたアプローチを定量的および定性的に評価します。 Oulu-CASIAとMUGの表情。私たちの実験結果は、継続的な動き、リアルな外観、アイデンティティの保持を備えたリアルなビデオを生成する上でのアプローチの有効性を示しています。また、改善された感情認識モデルをトレーニングするための、動的な表情生成、動的な表情転送、およびデータ拡張のためのフレームワークの効率も示します。
In this work, we propose a novel approach for generating videos of the six basic facial expressions given a neutral face image. We propose to exploit the face geometry by modeling the facial landmarks motion as curves encoded as points on a hypersphere. By proposing a conditional version of manifold-valued Wasserstein generative adversarial network (GAN) for motion generation on the hypersphere, we learn the distribution of facial expression dynamics of different classes, from which we synthesize new facial expression motions. The resulting motions can be transformed to sequences of landmarks and then to images sequences by editing the texture information using another conditional Generative Adversarial Network. To the best of our knowledge, this is the first work that explores manifold-valued representations with GAN to address the problem of dynamic facial expression generation. We evaluate our proposed approach both quantitatively and qualitatively on two public datasets; Oulu-CASIA and MUG Facial Expression. Our experimental results demonstrate the effectiveness of our approach in generating realistic videos with continuous motion, realistic appearance and identity preservation. We also show the efficiency of our framework for dynamic facial expressions generation, dynamic facial expression transfer and data augmentation for training improved emotion recognition models.