arXiv reaDer
会話音声のオンライン低遅延認識における超人的パフォーマンス
Super-Human Performance in Online Low-latency Recognition of Conversational Speech
研究者がますます困難な課題に取り組んできたため、人間の発話を認識する際に超人的なパフォーマンスを達成することは、数十年の目標でした。 1990年代に、ためらい、流暢さ、不正スタート、ずさんなアーティキュレーションが音響処理を複雑にし、音響、語彙、言語のコンテキストを共同で堅牢に処理する必要があるため、2人の人間間の会話音声は読み上げ音声よりもかなり難しいことが判明しました。統計モデルを使用した初期の試みでは、エラー率は50%を超え、人間のパフォーマンスにはほど遠いものでした(WERは約5.5%)。ニューラルハイブリッドモデルと最近の注意ベースのエンコーダ-デコーダモデルは、そのようなコンテキストを統合的に学習できるようになったため、パフォーマンスが大幅に向上しました。ただし、このようなコンテキストを処理するには、発話全体の提示が必要であるため、認識結果を出力する前に不要な遅延が発生します。このホワイトペーパーでは、パフォーマンスとレイテンシについて説明します。話者のスピーチからわずか1秒遅れた単語ベースの遅延で、超人的なパフォーマンス(5.0%のWER、Switchboard会話ベンチマークを超える)を達成できるシステムの結果を示します。このシステムは、新しい低遅延インクリメンタル推論アプローチに統合された、複数の注意ベースのエンコーダ-デコーダネットワークを使用します。
Achieving super-human performance in recognizing human speech has been a goal for several decades, as researchers have worked on increasingly challenging tasks. In the 1990's it was discovered, that conversational speech between two humans turns out to be considerably more difficult than read speech as hesitations, disfluencies, false starts and sloppy articulation complicate acoustic processing and require robust handling of acoustic, lexical and language context, jointly. Early attempts with statistical models could only reach error rates over 50% and far from human performance (WER of around 5.5%). Neural hybrid models and recent attention-based encoder-decoder models have considerably improved performance as such contexts can now be learned in an integral fashion. However, processing such contexts requires an entire utterance presentation and thus introduces unwanted delays before a recognition result can be output. In this paper, we address performance as well as latency. We present results for a system that can achieve super-human performance (at a WER of 5.0%, over the Switchboard conversational benchmark) at a word based latency of only 1 second behind a speaker's speech. The system uses multiple attention-based encoder-decoder networks integrated within a novel low latency incremental inference approach.
updated: Tue Jun 08 2021 14:47:11 GMT+0000 (UTC)
published: Wed Oct 07 2020 14:41:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト