Recurrent Neural Network Transducer for Audio-Visual Speech Recognition
 この作品は、リカレントニューラルネットワークトランスデューサー(RNN-T)アーキテクチャに基づく大規模な視聴覚音声認識システムを示しています。このようなシステムの開発をサポートするために、YouTubeの公開ビデオから抽出されたセグメント化された発話の大規模な視聴覚(A / V)データセットを構築し、3万1時間の視聴覚トレーニングコンテンツを作成しました。音声のみ、視覚のみ、および視聴覚システムのパフォーマンスは、YTDEV18と呼ばれる公開YouTubeビデオからの発話セグメントのセットと、公開されているLRS3-TEDセットの2つの大語彙テストセットで比較されます。視覚モダリティの寄与を強調するために、バックグラウンドノイズと音声の重なりで人為的に破損したYTDEV18セットでのシステムのパフォーマンスも評価しました。私たちの知る限り、システムはLRS3-TEDセットの最新技術を大幅に改善します。
This work presents a large-scale audio-visual speech recognition system based on a recurrent neural network transducer (RNN-T) architecture. To support the development of such a system, we built a large audio-visual (A/V) dataset of segmented utterances extracted from YouTube public videos, leading to 31k hours of audio-visual training content. The performance of an audio-only, visual-only, and audio-visual system are compared on two large-vocabulary test sets: a set of utterance segments from public YouTube videos called YTDEV18 and the publicly available LRS3-TED set. To highlight the contribution of the visual modality, we also evaluated the performance of our system on the YTDEV18 set artificially corrupted with background noise and overlapping speech. To the best of our knowledge, our system significantly improves the state-of-the-art on the LRS3-TED set.
updated: Fri Nov 08 2019 22:01:42 GMT+0000 (UTC)
published: Fri Nov 08 2019 22:01:42 GMT+0000 (UTC)
