この論文では、変分オートエンコーダー(VAE)に基づく教師なし(未知のノイズ)オーディオビジュアル音声強調に関心があります。ここでは、エンコーダーデコーダーアーキテクチャを使用してクリーンな音声スペクトルの確率分布がシミュレートされます。次に、トレーニングされた生成モデル(デコーダー)がテスト時にノイズモデルと組み合わされて、クリーンな音声が推定されます。音声強調フェーズ(テスト時間)では、推論の問題全体が非凸であるため、デコーダーを介したクリーンな音声の生成プロセスを表す潜在変数の初期化が重要です。これは通常、ノイズの多いオーディオとクリーンなビジュアルデータが入力として提供されるトレーニング済みエンコーダーの出力を使用して行われます。現在の視聴覚VAEモデルは、2つのモダリティが関連するアーキテクチャで緊密に結合(連結)されているため、効果的な初期化を提供しません。混合モデルに触発されたこの問題を克服するために、推論ネットワーク変分オートエンコーダー(MIN-VAE)の混合を導入します。 2つのエンコーダーネットワークは、それぞれオーディオデータとビジュアルデータを入力し、潜在変数の後方は、各エンコーダーネットワークから出力された2つのガウス分布の混合としてモデル化されます。混合変数も潜在的であるため、音声と視覚の推論ネットワーク間の最適なバランスを学習する推論も教師なしです。共有デコーダーをトレーニングすることにより、ネットワーク全体が2つのモダリティを適応的に融合することを学習します。さらに、テスト時には、(クリーンな)ビジュアルデータを取得するビジュアルエンコーダが初期化に使用されます。提案された生成モデルをトレーニングするために、変分推論アプローチが導出されます。斬新な推論手順と堅牢な初期化のおかげで、提案されたMIN-VAEは、標準の音声のみおよび視聴覚の対応物を使用するよりも、音声強調で優れたパフォーマンスを示します。
In this paper, we are interested in unsupervised (unknown noise) audio-visual speech enhancement based on variational autoencoders (VAEs), where the probability distribution of clean speech spectra is simulated using an encoder-decoder architecture. The trained generative model (decoder) is then combined with a noise model at test time to estimate the clean speech. In the speech enhancement phase (test time), the initialization of the latent variables, which describe the generative process of clean speech via decoder, is crucial, as the overall inference problem is non-convex. This is usually done by using the output of the trained encoder where the noisy audio and clean visual data are given as input. Current audio-visual VAE models do not provide an effective initialization because the two modalities are tightly coupled (concatenated) in the associated architectures. To overcome this issue, inspired by mixture models, we introduce the mixture of inference networks variational autoencoder (MIN-VAE). Two encoder networks input, respectively, audio and visual data, and the posterior of the latent variables is modeled as a mixture of two Gaussian distributions output from each encoder network. The mixture variable is also latent, and therefore the inference of learning the optimal balance between the audio and visual inference networks is unsupervised as well. By training a shared decoder, the overall network learns to adaptively fuse the two modalities. Moreover, at test time, the visual encoder, which takes (clean) visual data, is used for initialization. A variational inference approach is derived to train the proposed generative model. Thanks to the novel inference procedure and the robust initialization, the proposed MIN-VAE exhibits superior performance on speech enhancement than using the standard audio-only as well as audio-visual counterparts.