arXiv reaDer
WaveNet: 生のオーディオのための生成モデル
WaveNet: A Generative Model for Raw Audio
この論文では、生のオーディオ波形を生成するためのディープ・ニューラル・ネットワークであるWaveNetを紹介します。このモデルは完全に確率的で自己回帰的であり、各音声サンプルの予測分布は以前のすべての音声サンプルを条件としていますが、1秒間に数万サンプルの音声データに対して効率的に学習できることを示します。テキスト音声合成に適用した場合、これは最先端の性能を発揮し、人間のリスナーからは、英語と北京語の両方について、最高のパラメトリックおよび連結システムよりもはるかに自然な音声が得られると評価されています。1つのWaveNetは、多くの異なる話者の特徴を同等の忠実度で捉えることができ、話者の同一性に条件付けをすることで話者を切り替えることができます。音楽をモデル化するために訓練したところ、WaveNetは斬新で非常にリアルな音楽断片を生成することがわかりました。また、識別モデルとしても利用でき、音素認識に有望な結果が得られることを示します。
This paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that it can be efficiently trained on data with tens of thousands of samples per second of audio. When applied to text-to-speech, it yields state-of-the-art performance, with human listeners rating it as significantly more natural sounding than the best parametric and concatenative systems for both English and Mandarin. A single WaveNet can capture the characteristics of many different speakers with equal fidelity, and can switch between them by conditioning on the speaker identity. When trained to model music, we find that it generates novel and often highly realistic musical fragments. We also show that it can be employed as a discriminative model, returning promising results for phoneme recognition.
updated: Mon Sep 19 2016 18:04:35 GMT+0000 (UTC)
published: Mon Sep 12 2016 17:29:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト