arXiv reaDer
堅牢な自己監視型オーディオビジュアル音声認識
Robust Self-Supervised Audio-Visual Speech Recognition
音声ベースの自動音声認識(ASR)は、ノイズの多い環境では大幅に低下し、モデルがどの話者を書き写すかを決定できないため、音声の干渉に対して特に脆弱です。オーディオビジュアル音声認識(AVSR)システムは、ノイズに対して不変であり、モデルが目的のスピーカーに焦点を合わせるのに役立つ視覚情報でオーディオストリームを補完することにより、堅牢性を向上させます。ただし、以前のAVSR作業は、教師あり学習の設定のみに焦点を当てていました。したがって、利用可能なラベル付きデータの量によって進歩が妨げられました。この作品では、最先端の視聴覚音声表現学習モデルである視聴覚HuBERT(AV-HuBERT)に基づいて構築された自己監視型AVSRフレームワークを紹介します。利用可能な最大のAVSRベンチマークデータセットLRS3では、私たちのアプローチは、ラベル付けされたデータの10%未満(433時間対30時間)を使用して、以前の最先端技術を約50%(28.0%対14.1%)上回っています。せせらぎノイズ、オーディオベースのモデルのWERを平均75%以上(25.8%対5.8%)削減します。
Audio-based automatic speech recognition (ASR) degrades significantly in noisy environments and is particularly vulnerable to interfering speech, as the model cannot determine which speaker to transcribe. Audio-visual speech recognition (AVSR) systems improve robustness by complementing the audio stream with the visual information that is invariant to noise and helps the model focus on the desired speaker. However, previous AVSR work focused solely on the supervised learning setup; hence the progress was hindered by the amount of labeled data available. In this work, we present a self-supervised AVSR framework built upon Audio-Visual HuBERT (AV-HuBERT), a state-of-the-art audio-visual speech representation learning model. On the largest available AVSR benchmark dataset LRS3, our approach outperforms prior state-of-the-art by ~50% (28.0% vs. 14.1%) using less than 10% of labeled data (433hr vs. 30hr) in the presence of babble noise, while reducing the WER of an audio-based model by over 75% (25.8% vs. 5.8%) on average.
updated: Wed Jan 05 2022 18:50:50 GMT+0000 (UTC)
published: Wed Jan 05 2022 18:50:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト