ビデオ音声合成では、サイレント ビデオから話者の音声信号を再構築します。このタスクの暗黙の前提は、サウンド信号が欠落しているか、処理に役に立たない大量のノイズ/破損が含まれているということです。これまでの文献では、トレーニング中にビデオ入力のみを使用するか、ビデオ入力とオーディオ入力の両方を使用し、推論中に入力オーディオ経路を破棄していました。この研究では、トレーニングと推論の両方でビデオ音声合成にビデオ入力とオーディオ入力を使用する効果を調査します。特に、事前トレーニングされたビデオ音声合成モデルを使用して欠落した音声信号を合成し、その後、サイレントビデオと合成音声の両方を入力として使用してオーディオビジュアル音声合成モデルをトレーニングして、最終的な音声信号を予測します。復元されたスピーチ。私たちの実験は、このアプローチがターゲット出力として生の波形とメルスペクトログラムの両方で成功することを示しています。
Video-to-speech synthesis involves reconstructing the speech signal of a speaker from a silent video. The implicit assumption of this task is that the sound signal is either missing or contains a high amount of noise/corruption such that it is not useful for processing. Previous works in the literature either use video inputs only or employ both video and audio inputs during training, and discard the input audio pathway during inference. In this work we investigate the effect of using video and audio inputs for video-to-speech synthesis during both training and inference. In particular, we use pre-trained video-to-speech models to synthesize the missing speech signals and then train an audio-visual-to-speech synthesis model, using both the silent video and the synthesized speech as inputs, to predict the final reconstructed speech. Our experiments demonstrate that this approach is successful with both raw waveforms and mel spectrograms as target outputs.