arXiv reaDer
オーディオからビデオへの生成のためのマルチモーダル適応正規化
Multi Modal Adaptive Normalization for Audio to Video Generation
音声駆動の顔のビデオ生成は、そのマルチモーダルな側面、すなわちオーディオおよびビデオドメインのために複雑な問題でした。オーディオは、表現、ピッチ、ラウドネス、韻律(話し方)などの多くの基本的な機能で構成され、顔のビデオには、頭の動き、まばたき、口パク、さまざまな顔のアクションユニットの動き、および時間的な滑らかさの点で多くの変動があります。音声入力と静止画像から表現力の高い顔のビデオを合成することは、生成的な敵対的ネットワークにとって依然として困難な作業です。この論文では、入力として音声信号と人の単一画像を使用して、任意の長さの話している人のビデオを合成するためのマルチモーダル適応正規化(MAN)ベースのアーキテクチャを提案します。このアーキテクチャは、マルチモーダル適応正規化、キーポイントヒートマップ予測子、オプティカルフロー予測子、およびクラスアクティベーションマップ[58]ベースのレイヤーを使用して、表情豊かな顔のコンポーネントの動きを学習し、特定の人物の表情豊かな会話の頭のビデオを生成します。マルチモーダル適応正規化は、メルスペクトログラム、ピッチ、オーディオ信号からのエネルギー、予測されたキーポイントヒートマップ/オプティカルフローなどのオーディオとビデオのさまざまな機能と単一の画像を使用して、それぞれのアフィンパラメータを学習し、表現力の高いビデオを生成します。実験的評価は、GAN(RSDGAN)[53]、Speech2Vid [10]、およびその他のアプローチを使用した現実的な音声駆動顔面アニメーションと比較して、SSIM(構造類似性指数)、PSNRを含む複数の定量的メトリックで提案された方法の優れたパフォーマンスを示しています(ピーク信号対雑音比)、CPBD(画像の鮮明さ)、WER(単語誤り率)、点滅/秒、LMD(ランドマーク距離)。さらに、定性的評価とオンラインチューリングテストは、私たちのアプローチの有効性を示しています。
Speech-driven facial video generation has been a complex problem due to its multi-modal aspects namely audio and video domain. The audio comprises lots of underlying features such as expression, pitch, loudness, prosody(speaking style) and facial video has lots of variability in terms of head movement, eye blinks, lip synchronization and movements of various facial action units along with temporal smoothness. Synthesizing highly expressive facial videos from the audio input and static image is still a challenging task for generative adversarial networks. In this paper, we propose a multi-modal adaptive normalization(MAN) based architecture to synthesize a talking person video of arbitrary length using as input: an audio signal and a single image of a person. The architecture uses the multi-modal adaptive normalization, keypoint heatmap predictor, optical flow predictor and class activation map[58] based layers to learn movements of expressive facial components and hence generates a highly expressive talking-head video of the given person. The multi-modal adaptive normalization uses the various features of audio and video such as Mel spectrogram, pitch, energy from audio signals and predicted keypoint heatmap/optical flow and a single image to learn the respective affine parameters to generate highly expressive video. Experimental evaluation demonstrates superior performance of the proposed method as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [53], Speech2Vid [10], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio), CPBD (image sharpness), WER(word error rate), blinks/sec and LMD(landmark distance). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
updated: Mon Dec 14 2020 07:39:45 GMT+0000 (UTC)
published: Mon Dec 14 2020 07:39:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト