このペーパーでは、音声に基づいて音声ビデオを生成する簡単な方法を紹介します。音声が与えられると、この音声を話すターゲットの顔のビデオを生成できます。条件としてカットスピーチオーディオ入力を備えたGenerativeAdversarialNetworks(GAN)を提案し、ジェネレーターとディスクリミネーターに畳み込みゲート回帰ユニット(GRU)を使用します。私たちのモデルは、この期間の短いオーディオとフレームを活用することによってトレーニングされています。トレーニングでは、音声をカットし、対応するフレームで顔を抽出します。単純なエンコーダーを設計し、GRUを使用した場合と使用しない場合のGANを使用して生成されたフレームを比較します。時間的にコヒーレントなフレームにGRUを使用します。その結果は、短いオーディオで比較的リアルな出力結果が得られることを示しています。
This paper presents a simple method for speech videos generation based on audio: given a piece of audio, we can generate a video of the target face speaking this audio. We propose Generative Adversarial Networks (GAN) with cut speech audio input as condition and use Convolutional Gate Recurrent Unit (GRU) in generator and discriminator. Our model is trained by exploiting the short audio and the frames in this duration. For training, we cut the audio and extract the face in the corresponding frames. We designed a simple encoder and compare the generated frames using GAN with and without GRU. We use GRU for temporally coherent frames and the results show that short audio can produce relatively realistic output results.