変分オートエンコーダー (VAE) に基づく深層潜在変数生成モデルは、視聴覚音声強調 (AVSE) の有望なパフォーマンスを示しています。基本的な考え方は、きれいな音声データの VAE ベースの視聴覚事前分布を学習し、それを統計的ノイズ モデルと組み合わせて、ノイズの多い音声録音とターゲット スピーカーのビデオ (唇の画像) から音声信号を復元することです。 AVSE 用に開発された既存の生成モデルは、音声データのシーケンシャルな性質を考慮していないため、視覚データの力を完全に組み込むことができません。この論文では、潜在変数の 1 次マルコフ連鎖モデルを想定し、効果的に視聴覚データを融合する視聴覚ディープ カルマン フィルター (AV-DKF) 生成モデルを提示します。さらに、テスト時に音声信号を推定するための効率的な推論方法を開発します。一連の実験を行って、音声強調のための生成モデルのさまざまなバリアントを比較します。結果は、AV-DKF モデルの優位性を、そのオーディオのみのバージョンと、ノンシーケンシャル オーディオのみおよびオーディオビジュアル VAE ベースのモデルの両方と比較して示しています。
Deep latent variable generative models based on variational autoencoder (VAE) have shown promising performance for audiovisual speech enhancement (AVSE). The underlying idea is to learn a VAEbased audiovisual prior distribution for clean speech data, and then combine it with a statistical noise model to recover a speech signal from a noisy audio recording and video (lip images) of the target speaker. Existing generative models developed for AVSE do not take into account the sequential nature of speech data, which prevents them from fully incorporating the power of visual data. In this paper, we present an audiovisual deep Kalman filter (AV-DKF) generative model which assumes a first-order Markov chain model for the latent variables and effectively fuses audiovisual data. Moreover, we develop an efficient inference methodology to estimate speech signals at test time. We conduct a set of experiments to compare different variants of generative models for speech enhancement. The results demonstrate the superiority of the AV-DKF model compared with both its audio-only version and the non-sequential audio-only and audiovisual VAE-based models.