arXiv reaDer
堅牢なワンショットオーディオからビデオへの生成
Robust One Shot Audio to Video Generation
オーディオからビデオへの生成は興味深い問題であり、映画製作、マルチメディア、マーケティング、教育など、業界全体に多数のアプリケーションがあります。表情豊かな顔の動きを伴う高品質のビデオ生成は、生成的な敵対的ネットワークの複雑な学習ステップを伴う困難な問題です。さらに、目に見えない単一の画像に対してワンショット学習を有効にすると、問題の複雑さが増し、同時に実際のシナリオにより適したものになります。この論文では、音声信号と人の単一の見えない画像を入力として使用して、任意の長さの話している人のビデオを合成するための新しいアプローチOneShotA2Vを提案します。 OneShotA2Vは、カリキュラム学習を活用して、表情豊かな顔のコンポーネントの動きを学習するため、特定の人物の高品質な会話型ビデオを生成します。さらに、音声入力から生成された機能を生成的敵対的ネットワークに直接フィードし、わずかな出力更新エポックで数ショット学習を適用することで、特定の目に見えないセルフィーに適応します。 OneShotA2Vは、空間適応型の正規化ベースのマルチレベルジェネレーターと複数のマルチレベルディスクリミネーターベースのアーキテクチャを活用します。入力オーディオクリップは特定の言語に制限されていないため、メソッドに多言語の適用性があります。実験的評価は、GAN(RSDGAN)[43]、Speech2Vid [8]、およびその他のアプローチと比較して、SSIM(構造類似性指数)、PSNR(ピーク)を含む複数の定量的メトリックでOneShotA2Vの優れたパフォーマンスを示しています。信号対雑音比)およびCPBD(画像の鮮明度)。さらに、定性的評価とオンラインチューリングテストは、私たちのアプローチの有効性を示しています。
Audio to Video generation is an interesting problem that has numerous applications across industry verticals including film making, multi-media, marketing, education and others. High-quality video generation with expressive facial movements is a challenging problem that involves complex learning steps for generative adversarial networks. Further, enabling one-shot learning for an unseen single image increases the complexity of the problem while simultaneously making it more applicable to practical scenarios. In the paper, we propose a novel approach OneShotA2V to synthesize a talking person video of arbitrary length using as input: an audio signal and a single unseen image of a person. OneShotA2V leverages curriculum learning to learn movements of expressive facial components and hence generates a high-quality talking-head video of the given person. Further, it feeds the features generated from the audio input directly into a generative adversarial network and it adapts to any given unseen selfie by applying fewshot learning with only a few output updation epochs. OneShotA2V leverages spatially adaptive normalization based multi-level generator and multiple multi-level discriminators based architecture. The input audio clip is not restricted to any specific language, which gives the method multilingual applicability. Experimental evaluation demonstrates superior performance of OneShotA2V as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [43], Speech2Vid [8], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio) and CPBD (image sharpness). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
updated: Mon Dec 14 2020 10:50:05 GMT+0000 (UTC)
published: Mon Dec 14 2020 10:50:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト