この論文は、特定のニュースを読んでいるアンカーの現実的な顔のビデオを生成するための新しいフレームワークを提示します。このタスクは、仮想アンカーとも呼ばれます。いくつかの単語の段落が与えられると、最初に事前学習済みのWord2Vecモデルを使用して、各単語をベクトルに埋め込みます。次に、Seq2Seqベースのモデルを利用して、これらの単語の埋め込みをアクションユニットとターゲットアンカーの頭部ポーズに変換します。これらのアクションユニットと頭のポーズは、以前の$ n $の合成フレームと同様に顔のランドマークと連結され、連結はPix2PixHDベースのモデルの入力として機能し、仮想アンカーの現実的な顔画像を合成します。実験結果は、フレームワークが仮想アンカーの合成に適していることを示しています。
This paper presents a novel framework to generate realistic face video of an anchor, who is reading certain news. This task is also known as Virtual Anchor. Given some paragraphs of words, we first utilize a pretrained Word2Vec model to embed each word into a vector; then we utilize a Seq2Seq-based model to translate these word embeddings into action units and head poses of the target anchor; these action units and head poses will be concatenated with facial landmarks as well as the former $n$ synthesized frames, and the concatenation serves as input of a Pix2PixHD-based model to synthesize realistic facial images for the virtual anchor. The experimental results demonstrate our framework is feasible for the synthesis of virtual anchor.