オーディオからアニメーションビデオへの生成という難しい問題を検討します。オーディオクリップと人の見えない単一の画像を入力として使用して、任意の長さのアニメーションビデオを生成する新しい方法OneShotAu2AVを提案します。提案された方法は2つの段階からなる。最初の段階では、OneShotAu2AVは、音声と人物の画像を指定して、人間の領域でトーキングヘッズビデオを生成します。第2段階では、人間のドメインからのトーキング・ヘッズのビデオがアニメーションのドメインに変換されます。第1段階のモデルアーキテクチャは、空間的に適応可能な正規化ベースのマルチレベルジェネレータと複数のマルチレベルディスクリミネータ、および複数の敵対的および非敵対的損失で構成されます。第2段階では、注意ベースの正規化駆動型GANアーキテクチャと、時間予測ベースのリサイクル損失およびリップシンク損失と組み合わせた瞬き損失を活用して、教師なし生成のアニメーションビデオを作成します。私たちのアプローチでは、入力オーディオクリップは特定の言語に制限されていないため、メソッドに多言語の適用性が与えられます。 OneShotAu2AVは、(a)オーディオと同期する唇の動き、(b)まばたきや眉の動きなどの自然な表情、(c)頭の動きを含むアニメーションビデオを生成できます。実験的評価は、KID(カーネル開始距離)、単語誤り率、点滅/秒を含む複数の定量的メトリックで、U-GAT-ITおよびRecycleGanと比較してOneShotAu2AVの優れたパフォーマンスを示しています
We consider the challenging problem of audio to animated video generation. We propose a novel method OneShotAu2AV to generate an animated video of arbitrary length using an audio clip and a single unseen image of a person as an input. The proposed method consists of two stages. In the first stage, OneShotAu2AV generates the talking-head video in the human domain given an audio and a person's image. In the second stage, the talking-head video from the human domain is converted to the animated domain. The model architecture of the first stage consists of spatially adaptive normalization based multi-level generator and multiple multilevel discriminators along with multiple adversarial and non-adversarial losses. The second stage leverages attention based normalization driven GAN architecture along with temporal predictor based recycle loss and blink loss coupled with lipsync loss, for unsupervised generation of animated video. In our approach, the input audio clip is not restricted to any specific language, which gives the method multilingual applicability. OneShotAu2AV can generate animated videos that have: (a) lip movements that are in sync with the audio, (b) natural facial expressions such as blinks and eyebrow movements, (c) head movements. Experimental evaluation demonstrates superior performance of OneShotAu2AV as compared to U-GAT-IT and RecycleGan on multiple quantitative metrics including KID(Kernel Inception Distance), Word error rate, blinks/sec