arXiv reaDer
視聴覚マルチパーソン音声認識とアクティブスピーカー選択の詳細
A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active Speaker Selection
視聴覚自動音声認識は、ノイズの多い条件下での堅牢なASRへの有望なアプローチです。しかし、最近まで、単一の話す顔のビデオが音声と一致すると仮定して単独で研究され、複数の人が画面に表示されている推論時にアクティブなスピーカーを選択することは別の問題として脇に置かれていました。別の方法として、最近の研究では、注意メカニズムと同時に2つの問題に対処し、話者選択の問題を完全に微分可能なモデルに直接焼き付けることを提案しています。興味深い発見の1つは、トレーニング時にこの対応が明示的に提供されることはないにもかかわらず、注意が音声と話す顔の関連を間接的に学習することでした。本研究では、この関係をさらに調査し、2つの問題間の相互作用を調べます。トレーニングデータとして5万時間以上の公開YouTubeビデオを含む実験で、最初にアクティブな話者選択タスクの注意レイヤーの精度を評価します。次に、綿密な調査の下で、エンドツーエンドモデルが、さまざまなノイズ条件と平行な面トラックの数の下で難しい決定境界を利用するかなり大きな2ステップシステムと同様に機能することを示します。
Audio-visual automatic speech recognition is a promising approach to robust ASR under noisy conditions. However, up until recently it had been traditionally studied in isolation assuming the video of a single speaking face matches the audio, and selecting the active speaker at inference time when multiple people are on screen was put aside as a separate problem. As an alternative, recent work has proposed to address the two problems simultaneously with an attention mechanism, baking the speaker selection problem directly into a fully differentiable model. One interesting finding was that the attention indirectly learns the association between the audio and the speaking face even though this correspondence is never explicitly provided at training time. In the present work we further investigate this connection and examine the interplay between the two problems. With experiments involving over 50 thousand hours of public YouTube videos as training data, we first evaluate the accuracy of the attention layer on an active speaker selection task. Secondly, we show under closer scrutiny that an end-to-end model performs at least as well as a considerably larger two-step system that utilizes a hard decision boundary under various noise conditions and number of parallel face tracks.
updated: Wed May 11 2022 15:55:31 GMT+0000 (UTC)
published: Wed May 11 2022 15:55:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト