arXiv reaDer
視聴覚残響除去の学習
Learning Audio-Visual Dereverberation
残響は、人間が知覚する音声の品質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を与えます。以前の作業では、オーディオ モダリティのみに基づいて残響を除去しようとしました。私たちの考えは、視聴覚観察から発話の残響を減らすことを学ぶことです。人間のスピーカーを取り巻く視覚環境は、部屋の形状、素材、スピーカーの位置に関する重要な手がかりを明らかにします。これらすべてが正確な残響効果に影響を与えます。観察されたモノラル サウンドとビジュアル シーンの両方に基づいて残響を除去することを学習するエンド ツー エンドのアプローチである Visually-Informed Dereverberation of Audio (VIDA) を紹介します。この新しいタスクをサポートするために、さまざまな室内音響を提供する家の実世界の 3D スキャンで音声のリアルな音響レンダリングを使用する大規模なデータセット SoundSpaces-Speech を開発します。音声強調、音声認識、および話者識別のためのシミュレートされた画像と実際の画像の両方に対するアプローチを実証し、最先端のパフォーマンスを達成し、音声のみの方法よりも大幅に改善されることを示します。
Reverberation not only degrades the quality of speech for human perception, but also severely impacts the accuracy of automatic speech recognition. Prior work attempts to remove reverberation based on the audio modality only. Our idea is to learn to dereverberate speech from audio-visual observations. The visual environment surrounding a human speaker reveals important cues about the room geometry, materials, and speaker location, all of which influence the precise reverberation effects. We introduce Visually-Informed Dereverberation of Audio (VIDA), an end-to-end approach that learns to remove reverberation based on both the observed monaural sound and visual scene. In support of this new task, we develop a large-scale dataset SoundSpaces-Speech that uses realistic acoustic renderings of speech in real-world 3D scans of homes offering a variety of room acoustics. Demonstrating our approach on both simulated and real imagery for speech enhancement, speech recognition, and speaker identification, we show it achieves state-of-the-art performance and substantially improves over audio-only methods.
updated: Mon Mar 13 2023 21:34:57 GMT+0000 (UTC)
published: Mon Jun 14 2021 20:01:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト