arXiv reaDer
マルチモーダルオーディオビジュアル音声認識のためのユニモーダル自己監視学習の活用
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition
Transformerベースのモデルのトレーニングには大量のデータが必要ですが、マルチモダリティで整列およびラベル付けされたデータを取得することは、特にオーディオビジュアル音声認識(AVSR)の場合、かなりコストがかかります。したがって、ラベルのない単峰性データを利用することは非常に理にかなっています。一方、大規模な自己監視学習の有効性は、オーディオとビジュアルの両方のモダリティで十分に確立されていますが、これらの事前トレーニングされたモデルをマルチモーダルシナリオに統合する方法は未踏のままです。この作業では、マルチモーダルAVSRを促進するために、ユニモーダル自己監視学習をうまく活用します。特に、オーディオとビジュアルのフロントエンドは大規模なユニモーダルデータセットでトレーニングされ、両方のフロントエンドのコンポーネントをより大きなマルチモーダルフレームワークに統合します。このフレームワークは、CTCとseq2seqの組み合わせにより、並列のオーディオビジュアルデータを文字に認識することを学習します。デコード。ユニモーダル自己監視学習から継承された両方のコンポーネントがうまく連携し、マルチモーダルフレームワークが微調整を通じて競争力のある結果をもたらすことを示します。私たちのモデルは、単語レベルと文レベルの両方のタスクで実験的に検証されています。特に、外部言語モデルがなくても、提案されたモデルは、広く受け入れられている読唇術2(LRS2)データセットの最先端のパフォーマンスを大幅に向上させ、相対的な改善を30%向上させます。
Training Transformer-based models demands a large amount of data, while obtaining aligned and labelled data in multimodality is rather cost-demanding, especially for audio-visual speech recognition (AVSR). Thus it makes a lot of sense to make use of unlabelled unimodal data. On the other side, although the effectiveness of large-scale self-supervised learning is well established in both audio and visual modalities, how to integrate those pre-trained models into a multimodal scenario remains underexplored. In this work, we successfully leverage unimodal self-supervised learning to promote the multimodal AVSR. In particular, audio and visual front-ends are trained on large-scale unimodal datasets, then we integrate components of both front-ends into a larger multimodal framework which learns to recognize parallel audio-visual data into characters through a combination of CTC and seq2seq decoding. We show that both components inherited from unimodal self-supervised learning cooperate well, resulting in that the multimodal framework yields competitive results through fine-tuning. Our model is experimentally validated on both word-level and sentence-level tasks. Especially, even without an external language model, our proposed model raises the state-of-the-art performances on the widely accepted Lip Reading Sentences 2 (LRS2) dataset by a large margin, with a relative improvement of 30%.
updated: Sat Mar 26 2022 04:11:10 GMT+0000 (UTC)
published: Thu Feb 24 2022 15:12:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト