CochleaNet: A Robust Language-independent Audio-Visual Model for Speech Enhancement
  ノイズの多い状況は、補聴器が信号をより聞き取りやすくするが、明瞭度を常に回復するとは限らないため、難聴の苦痛にとって大きな問題を引き起こします。ノイズの多い環境では、人間は日常的に音声のオーディオビジュアル(AV)の性質を利用して、バックグラウンドノイズを選択的に抑制し、ターゲットスピーカーに焦点を合わせます。この論文では、音声強調(SE)のための因果関係、言語、ノイズ、話者に依存しないAVディープニューラルネットワーク(DNN)アーキテクチャを示します。このモデルは、ノイズの多い音響キューとノイズに強い視覚キューを利用して、目的のスピーカーに焦点を合わせ、音声の明瞭度を向上させます。提案されたSEフレームワークを評価するために、ASPIREと呼ばれるその種の最初のAVバイノーラル音声コーパスは、カフェテリアやレストランを含む実際のノイズの多い環境で記録されます。最先端のSEアプローチや最近のDNNベースのSEモデルよりも客観的な測定と主観的なリスニングテストの観点から、当社のアプローチの優れた性能を実証します。さらに、私たちの仕事は、多言語の大語彙AVコーパスと多種多様なノイズの不足が、堅牢な言語、スピーカー、ノイズに依存しないSEシステムを構築するための主要なボトルネックであるという一般的な信念に挑戦しています。グリッドコーパス(33人のスピーカーと小さな英語の語彙)とChiME 3ノイズ(バス、歩行者、カフェテリア、ストリートノイズのみで構成される)の合成混合でトレーニングされたモデルは、大語彙コーパスだけでなく、完全に無関係な言語(標準中国語など)、さまざまなスピーカーとノイズ。
Noisy situations cause huge problems for suffers of hearing loss as hearing aids often make the signal more audible but do not always restore the intelligibility. In noisy settings, humans routinely exploit the audio-visual (AV) nature of the speech to selectively suppress the background noise and to focus on the target speaker. In this paper, we present a causal, language, noise and speaker independent AV deep neural network (DNN) architecture for speech enhancement (SE). The model exploits the noisy acoustic cues and noise robust visual cues to focus on the desired speaker and improve the speech intelligibility. To evaluate the proposed SE framework a first of its kind AV binaural speech corpus, called ASPIRE, is recorded in real noisy environments including cafeteria and restaurant. We demonstrate superior performance of our approach in terms of objective measures and subjective listening tests over the state-of-the-art SE approaches as well as recent DNN based SE models. In addition, our work challenges a popular belief that a scarcity of multi-language large vocabulary AV corpus and wide variety of noises is a major bottleneck to build a robust language, speaker and noise independent SE systems. We show that a model trained on synthetic mixture of Grid corpus (with 33 speakers and a small English vocabulary) and ChiME 3 Noises (consisting of only bus, pedestrian, cafeteria, and street noises) generalise well not only on large vocabulary corpora but also on completely unrelated languages (such as Mandarin), wide variety of speakers and noises.
