自動音声認識 (ASR) システムの使用は、パーソナル アシスタントからチャットボット、ホーム、産業オートメーション システムなどに至るまで、いたるところに存在するようになっています。現代のロボットには、人間と対話するための ASR 機能も装備されています。ただし、ロボットの ASR は、パーソナル アシスタントと比較して、追加の課題に直面しています。具現化されたエージェントであるため、ロボットは周囲の物理エンティティを認識し、そのようなエンティティの説明を含む音声を確実に認識しなければなりません。ただし、現在の ASR システムは、一般的なデータセットやオープンな語彙モデリングなどの ASR トレーニングの制限により、そうすることができないことがよくあります。また、ノイズ、アクセント付きの音声、遠距離音声など、推論中の不利な条件により、書き起こしが不正確になります。この作業では、ロボットの視覚情報を ASR システムに組み込み、目に見えるエンティティを含む発話の認識を改善する方法を提示します。具体的には、ASR出力が誤ったコンテキストで劣化しないようにしながら、視覚的なコンテキストを組み込むための新しいデコーダーバイアス技術を提案します。変更されていない ASR システムから、WER を 59% 相対的に削減できます。
The usage of automatic speech recognition (ASR) systems are becoming omnipresent ranging from personal assistant to chatbots, home, and industrial automation systems, etc. Modern robots are also equipped with ASR capabilities for interacting with humans as speech is the most natural interaction modality. However, ASR in robots faces additional challenges as compared to a personal assistant. Being an embodied agent, a robot must recognize the physical entities around it and therefore reliably recognize the speech containing the description of such entities. However, current ASR systems are often unable to do so due to limitations in ASR training, such as generic datasets and open-vocabulary modeling. Also, adverse conditions during inference, such as noise, accented, and far-field speech makes the transcription inaccurate. In this work, we present a method to incorporate a robot's visual information into an ASR system and improve the recognition of a spoken utterance containing a visible entity. Specifically, we propose a new decoder biasing technique to incorporate the visual context while ensuring the ASR output does not degrade for incorrect context. We achieve a 59% relative reduction in WER from an unmodified ASR system.