arXiv reaDer
オーディオからの顔のキーポイントシーケンスの生成
Facial Keypoint Sequence Generation from Audio
私たちが話すときはいつでも、私たちの声は顔の動きと表情を伴います。最近のいくつかの作品では、話している顔の非常に写実的なビデオの合成が示されていますが、ターゲットの顔を駆動するためにソースビデオが必要であるか、固定された頭のポーズでのみビデオを生成します。この顔の動きの欠如は、これらの作品のほとんどが、残りの顔のキーポイントの固定された性質を想定しながら、オーディオと同期した唇の動きに焦点を合わせているためです。これに対処するために、224pおよび25fpsで150,000を超えるビデオの一意のオーディオキーポイントデータセットが導入され、特定のオーディオの顔のキーポイントの動きが関連付けられます。次に、このデータセットを使用して、モデルAudio2Keypointをトレーニングします。これは、顔のキーポイントの動きを音声に合わせて合成するための新しいアプローチです。対象者の単一の画像と音声シーケンス(任意の言語)が与えられると、Audio2Keypointは、対象者の顔の特徴を維持するために入力画像を条件として、入力音声と同期してもっともらしいキーポイント移動シーケンスを生成します。私たちの知る限り、これはオーディオキーポイントデータセットを提案し、任意の長さのオーディオに対応するもっともらしいキーポイントシーケンスを出力するモデルを学習する最初の作業です。 Audio2Keypointは、顔の構造が異なる目に見えない人々に一般化することで、任意のソースからの音声または合成音声でシーケンスを生成できるようにします。この作業は、オーディオからビデオドメインへの直接マッピングを学習する代わりに、ポーズ不変(PIV)エンコーダーを使用して個人のアイデンティティを維持しながら、面内および面外の頭の回転を可能にするオーディオキーポイントマッピングを学習することを目的としています。 。
Whenever we speak, our voice is accompanied by facial movements and expressions. Several recent works have shown the synthesis of highly photo-realistic videos of talking faces, but they either require a source video to drive the target face or only generate videos with a fixed head pose. This lack of facial movement is because most of these works focus on the lip movement in sync with the audio while assuming the remaining facial keypoints' fixed nature. To address this, a unique audio-keypoint dataset of over 150,000 videos at 224p and 25fps is introduced that relates the facial keypoint movement for the given audio. This dataset is then further used to train the model, Audio2Keypoint, a novel approach for synthesizing facial keypoint movement to go with the audio. Given a single image of the target person and an audio sequence (in any language), Audio2Keypoint generates a plausible keypoint movement sequence in sync with the input audio, conditioned on the input image to preserve the target person's facial characteristics. To the best of our knowledge, this is the first work that proposes an audio-keypoint dataset and learns a model to output the plausible keypoint sequence to go with audio of any arbitrary length. Audio2Keypoint generalizes across unseen people with a different facial structure allowing us to generate the sequence with the voice from any source or even synthetic voices. Instead of learning a direct mapping from audio to video domain, this work aims to learn the audio-keypoint mapping that allows for in-plane and out-of-plane head rotations, while preserving the person's identity using a Pose Invariant (PIV) Encoder.
updated: Mon Nov 02 2020 16:47:52 GMT+0000 (UTC)
published: Mon Nov 02 2020 16:47:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト