arXiv reaDer
AV-HuBERTを使用したリップベースのオーディオビジュアルスピーカー埋め込みの学習
Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT
この論文は、話者の口の領域を示す視覚的ストリームが入力として音声と一緒に使用される視聴覚話者表現学習のための自己監視事前訓練を調査します。私たちの研究は、最近開発された汎用の視聴覚音声事前トレーニングフレームワークである視聴覚隠しユニットBERT(AV-HuBERT)アプローチに焦点を当てています。事前トレーニングと視覚モダリティの有効性を調査する広範な実験を実施しました。実験結果は、AV-HuBERTが話者関連のダウンストリームタスクに適切に一般化し、音声のみの話者検証と視聴覚話者検証の両方でラベル効率を約10倍改善することを示唆しています。また、唇の領域だけでも視覚情報を組み込むことで、パフォーマンスとノイズの堅牢性が大幅に向上し、クリーンな状態でEERが38%、ノイズの多い状態で75%減少することも示しています。私たちのコードとモデルは公開されます。
This paper investigates self-supervised pre-training for audio-visual speaker representation learning where a visual stream showing the speaker's mouth area is used alongside speech as inputs. Our study focuses on the Audio-Visual Hidden Unit BERT (AV-HuBERT) approach, a recently developed general-purpose audio-visual speech pre-training framework. We conducted extensive experiments probing the effectiveness of pre-training and visual modality. Experimental results suggest that AV-HuBERT generalizes decently to speaker related downstream tasks, improving label efficiency by roughly ten fold for both audio-only and audio-visual speaker verification. We also show that incorporating visual information, even just the lip area, greatly improves the performance and noise robustness, reducing EER by 38% in the clean condition and 75% in noisy conditions. Our code and models will be publicly available.
updated: Sun May 15 2022 04:48:41 GMT+0000 (UTC)
published: Sun May 15 2022 04:48:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト