arXiv reaDer
ReVISE: 普遍的かつ一般化された音声強調のための視覚入力による自己教師あり音声再合成
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement
視覚入力による音声品質の改善に関する以前の研究では、通常、聴覚の歪みの各タイプ (分離、修復、ビデオ音声変換など) を個別に研究し、調整されたアルゴリズムを提示します。この論文では、これらの主題を統一し、一般化された音声強調を研究することを提案します。ここでの目標は、正確な参照クリーン信号を再構築することではなく、音声の特定の側面の改善に焦点を当てることです。特に、このホワイト ペーパーは、明瞭度、品質、およびビデオ同期に関するものです。この問題は、疑似オーディオビジュアル音声認識 (P-AVSR) と疑似テキスト音声合成 (P-TTS) の 2 つのステップで構成されるオーディオビジュアル音声再合成としてキャストされます。 P-AVSR と P-TTS は、自己教師あり音声モデルから派生した個別のユニットによって接続されます。さらに、P-AVSR を初期化するために自己教師付き視聴覚音声モデルを利用します。提案されたモデルは、ReVISE という造語です。 ReVISE は、ビデオ音声合成の最初の高品質モデルであり、単一のモデルですべての LRS3 オーディオビジュアル拡張タスクで優れたパフォーマンスを実現します。実世界での適用性を実証するために、ReVISE は EasyCom で評価されています。これは、困難な音響条件下でわずか 1.6 時間のトレーニング データで収集されたオーディオビジュアル ベンチマークです。同様に、ReVISEはノイズを大幅に抑制し、品質を向上させます。プロジェクトページ: https://wnhsu.github.io/ReVISE.
Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.
updated: Wed Dec 21 2022 21:36:52 GMT+0000 (UTC)
published: Wed Dec 21 2022 21:36:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト