arXiv reaDer
TransformerベースのASRにおけるスピーカー適応方法の調査
Investigation of Speaker-adaptation methods in Transformer based ASR
エンドツーエンドモデルは、自動音声認識において従来のハイブリッドモデルに急速に取って代わっています。機械翻訳タスクで一般的に使用されている自己注意に基づくシーケンス間モデルであるTransformerは、自動音声認識に使用すると有望な結果をもたらしました。このホワイトペーパーでは、音声認識パフォーマンスを向上させるためにトランスフォーマーベースのモデルをトレーニングしながら、エンコーダー入力にスピーカー情報を組み込むさまざまな方法について説明します。スピーカー情報は、スピーカーごとにスピーカー埋め込みの形式で表示されます。前の作業で提案されたxベクトルと新しいsベクトルの2種類のスピーカー埋め込みを使用して実験します。 2つのデータセットa)NPTEL講義データベースとb)Librispeech500時間分割の結果を報告します。 NPTELは、インドのトップ大学からの講義を提供するオープンソースのeラーニングポータルです。話者の埋め込みをモデルに統合するというアプローチを通じて、ベースラインを超える単語誤り率の改善が得られます。
End-to-end models are fast replacing the conventional hybrid models in automatic speech recognition. Transformer, a sequence-to-sequence model, based on self-attention popularly used in machine translation tasks, has given promising results when used for automatic speech recognition. This paper explores different ways of incorporating speaker information at the encoder input while training a transformer-based model to improve its speech recognition performance. We present speaker information in the form of speaker embeddings for each of the speakers. We experiment using two types of speaker embeddings: x-vectors and novel s-vectors proposed in our previous work. We report results on two datasets a) NPTEL lecture database and b) Librispeech 500-hour split. NPTEL is an open-source e-learning portal providing lectures from top Indian universities. We obtain improvements in the word error rate over the baseline through our approach of integrating speaker embeddings into the model.
updated: Wed Nov 17 2021 21:11:46 GMT+0000 (UTC)
published: Fri Aug 07 2020 16:09:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト