arXiv reaDer
フレームベースの電気喉頭音声変換のための唇画像を使用した時間調整
Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice Conversion
音声変換(VC)は、電気式人工咽頭(EL)音声強調への効果的なアプローチであり、電気式人工咽頭デバイスからの人工音声の品質を向上させることを目的としたタスクです。フレームベースのVCメソッドでは、モデルトレーニングの前にタイムアラインメントを実行する必要があり、動的タイムワーピング(DTW)アルゴリズムが広く採用されて、各発話ペア間の最適なタイムアラインメントを計算します。妥当性は、話者の同じ音素が同様の機能を持ち、ソースとターゲットの音声フレーム間の事前定義された距離を測定することによってマッピングできるという仮定に基づいています。ただし、EL音声の特殊な特性により、想定が破られ、DTWの調整が最適化されない可能性があります。この作業では、喉頭切除術の唇の動きが健康な人と比較して正常なままであると想定しているため、時間調整に唇の画像を使用することを提案します。 2つの素朴な唇の表現と距離メトリックを調査し、実験結果は、提案された方法が客観的および主観的な評価の点で音声のみの配置を大幅に上回ることができることを示しています。
Voice conversion (VC) is an effective approach to electrolaryngeal (EL) speech enhancement, a task that aims to improve the quality of the artificial voice from an electrolarynx device. In frame-based VC methods, time alignment needs to be performed prior to model training, and the dynamic time warping (DTW) algorithm is widely adopted to compute the best time alignment between each utterance pair. The validity is based on the assumption that the same phonemes of the speakers have similar features and can be mapped by measuring a pre-defined distance between speech frames of the source and the target. However, the special characteristics of the EL speech can break the assumption, resulting in a sub-optimal DTW alignment. In this work, we propose to use lip images for time alignment, as we assume that the lip movements of laryngectomee remain normal compared to healthy people. We investigate two naive lip representations and distance metrics, and experimental results demonstrate that the proposed method can significantly outperform the audio-only alignment in terms of objective and subjective evaluations.
updated: Wed Sep 08 2021 11:24:09 GMT+0000 (UTC)
published: Wed Sep 08 2021 11:24:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト