arXiv reaDer
Improving sequence-to-sequence speech recognition training with on-the-fly data augmentation
 シーケンスツーシーケンス(S2S)モデルは、最近、自動音声認識(ASR)の最先端のパフォーマンスを示すようになりました。これらの大規模で深いモデルでは、オーバーフィットが最大の問題であり、より優れたアーキテクチャから得られるパフォーマンスの改善を上回ります。過剰適合問題の1つの解決策は、利用可能なトレーニングデータの量と、データ増強の助けを借りてトレーニングデータが示す多様性を増やすことです。このホワイトペーパーでは、2つのS2Sモデルアーキテクチャのパフォーマンスに対する3つのデータ拡張方法の影響を調べます。データ増強方法の1つは文献に由来しますが、他の2つの方法は私たち自身の開発です-周波数領域の時間摂動とサブシーケンスサンプリングです。 SwitchboardおよびFisherデータの実験では、音声トレーニングデータのみでトレーニングされ、追加のテキストデータを使用しないS2Sモデルの最先端のパフォーマンスが示されています。
Sequence-to-Sequence (S2S) models recently started to show state-of-the-art performance for automatic speech recognition (ASR). With these large and deep models overfitting remains the largest problem, outweighing performance improvements that can be obtained from better architectures. One solution to the overfitting problem is increasing the amount of available training data and the variety exhibited by the training data with the help of data augmentation. In this paper we examine the influence of three data augmentation methods on the performance of two S2S model architectures. One of the data augmentation method comes from literature, while two other methods are our own development - a time perturbation in the frequency domain and sub-sequence sampling. Our experiments on Switchboard and Fisher data show state-of-the-art performance for S2S models that are trained solely on the speech training data and do not use additional text data.
updated: Mon Feb 03 2020 08:12:31 GMT+0000 (UTC)
published: Tue Oct 29 2019 14:38:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト