オーディオビジュアル音声モデルは、オーディオのみのモデルと比較して優れたパフォーマンスと堅牢性を生み出すことができますが、それらの開発と採用は、ラベル付けされたおよびラベル付けされていないオーディオビジュアルデータの欠如と、モダリティごとに 1 つのモデルを展開するコストによって妨げられています。このホワイト ペーパーでは、統一されたマスク クラスター予測目的でマルチモーダルおよびユニモーダル音声の両方を活用できる自己教師あり事前トレーニング フレームワークである u-HuBERT を紹介します。事前トレーニング中にモダリティ ドロップアウトを利用することで、微調整された単一のモデルが最先端のモダリティ固有のモデルと同等以上のパフォーマンスを達成できることを示します。さらに、オーディオのみで微調整されたモデルは、オーディオビジュアルおよびビジュアル音声入力でうまく機能し、複数の音声処理タスクのゼロショットモダリティ一般化を実現します。特に、私たちの単一モデルは、オーディオビジュアル/オーディオ/ビジュアル入力を使用した LRS3 で 1.2%/1.4%/27.2% の音声認識単語エラー率をもたらします。コードとモデルは https://github.com/facebookresearch/av_hubert で入手できます
While audio-visual speech models can yield superior performance and robustness compared to audio-only models, their development and adoption are hindered by the lack of labeled and unlabeled audio-visual data and the cost to deploy one model per modality. In this paper, we present u-HuBERT, a self-supervised pre-training framework that can leverage both multimodal and unimodal speech with a unified masked cluster prediction objective. By utilizing modality dropout during pre-training, we demonstrate that a single fine-tuned model can achieve performance on par or better than the state-of-the-art modality-specific models. Moreover, our model fine-tuned only on audio can perform well with audio-visual and visual speech input, achieving zero-shot modality generalization for multiple speech processing tasks. In particular, our single model yields 1.2%/1.4%/27.2% speech recognition word error rate on LRS3 with audio-visual/audio/visual input. Codes and models are available at https://github.com/facebookresearch/av_hubert