arXiv reaDer
視聴覚残響除去の学習
Learning Audio-Visual Dereverberation
環境内の表面や物体に反射する音声からの反響は、人間が知覚する音声の品質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を与えます。以前の作業では、オーディオモダリティのみに基づいて残響を除去しようとしています。私たちのアイデアは、視聴覚観察からスピーチを残響除去することを学ぶことです。人間のスピーカーを取り巻く視覚環境は、部屋の形状、素材、スピーカーの位置に関する重要な手がかりを明らかにします。これらはすべて、オーディオストリームの正確な残響効果に影響を与えます。観察された音と視覚シーンの両方に基づいて残響を除去することを学習するエンドツーエンドのアプローチである、視覚に基づいた音声の残響除去(VIDA)を紹介します。この新しいタスクをサポートするために、さまざまな部屋の音響を提供する家の実際の3Dスキャンで音声のリアルな音響レンダリングを使用する大規模なデータセットを開発します。音声強調、音声認識、話者識別のためのシミュレーション画像と実際の画像の両方に対するアプローチを示し、最先端のパフォーマンスを実現し、従来の音声のみの方法よりも大幅に改善されていることを示します。プロジェクトページ:http://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation。
Reverberation from audio reflecting off surfaces and objects in the environment not only degrades the quality of speech for human perception, but also severely impacts the accuracy of automatic speech recognition. Prior work attempts to remove reverberation based on the audio modality only. Our idea is to learn to dereverberate speech from audio-visual observations. The visual environment surrounding a human speaker reveals important cues about the room geometry, materials, and speaker location, all of which influence the precise reverberation effects in the audio stream. We introduce Visually-Informed Dereverberation of Audio (VIDA), an end-to-end approach that learns to remove reverberation based on both the observed sounds and visual scene. In support of this new task, we develop a large-scale dataset that uses realistic acoustic renderings of speech in real-world 3D scans of homes offering a variety of room acoustics. Demonstrating our approach on both simulated and real imagery for speech enhancement, speech recognition, and speaker identification, we show it achieves state-of-the-art performance and substantially improves over traditional audio-only methods. Project page: http://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation.
updated: Mon Jun 14 2021 20:01:24 GMT+0000 (UTC)
published: Mon Jun 14 2021 20:01:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト