arXiv reaDer
NWT: 表現学習による自然なオーディオからビデオへの生成に向けて
NWT: Towards natural audio-to-video generation with representation learning
この作業では、表現力豊かな音声からビデオへのモデルである NWT を紹介します。ポーズ キーポイントなどのドメイン固有の中間表現を使用するアプローチとは異なり、NWT は、オーディオとビデオのコンテンツに関する最小限の前提で、独自の潜在的表現を学習します。この目的のために、私たちは Memcode と呼ばれる新しい離散潜在表現を学習する、敵対的損失を伴う新しい離散変数オートエンコーダー dVAE-Adv を提案します。 Memcodes は実装が簡単で、追加の損失項を必要とせず、他のアプローチと比較して訓練しても安定しており、解釈可能性の証拠を示しています。 Memcode 空間で予測するには、オーディオに条件付けられた自己回帰エンコーダー デコーダー モデルを使用します。さらに、私たちのモデルは、データに注釈が付けられていない、生成されたビデオの潜在的な属性を制御できます。ジョン・オリバーとのHBOのLast Week TonightのクリップでNWTをトレーニングします。 NWT は、ビデオ全体の自然さ、顔の自然さと表現力、および口パクの品質のテストで、平均オピニオン スコア (MOS) で常に他のアプローチよりも高いスコアを獲得しています。この作業は、一般化されたオーディオからビデオへの合成の強力なベースラインを設定します。サンプルは https://next-week-tonight.github.io/NWT/ で入手できます。
In this work we introduce NWT, an expressive speech-to-video model. Unlike approaches that use domain-specific intermediate representations such as pose keypoints, NWT learns its own latent representations, with minimal assumptions about the audio and video content. To this end, we propose a novel discrete variational autoencoder with adversarial loss, dVAE-Adv, which learns a new discrete latent representation we call Memcodes. Memcodes are straightforward to implement, require no additional loss terms, are stable to train compared with other approaches, and show evidence of interpretability. To predict on the Memcode space, we use an autoregressive encoder-decoder model conditioned on audio. Additionally, our model can control latent attributes in the generated video that are not annotated in the data. We train NWT on clips from HBO's Last Week Tonight with John Oliver. NWT consistently scores above other approaches in Mean Opinion Score (MOS) on tests of overall video naturalness, facial naturalness and expressiveness, and lipsync quality. This work sets a strong baseline for generalized audio-to-video synthesis. Samples are available at https://next-week-tonight.github.io/NWT/.
updated: Tue Jun 08 2021 12:22:29 GMT+0000 (UTC)
published: Tue Jun 08 2021 12:22:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト