読み上げ音声合成が高い自然性スコアを達成することで、自発的な音声の合成に対する研究への関心が高まっています。ただし、人間の自発的な対面での会話には、音声と非言語の両方の側面 (ここでは、共話ジェスチャー) があります。これら 2 つのモダリティを 1 つのシステムで共同合成する利点を探求する研究が始まったのはつい最近のことです。以前の最先端技術では、非確率的な手法が使用されていたため、人間の音声や動作の変動性を捉えることができず、過度に平滑化されたアーティファクトや次善の合成品質が生じる危険性がありました。我々は、音声とジェスチャーを一緒に合成することを共同学習する、Diff-TTSG と呼ばれる最初の拡散ベースの確率モデルを紹介します。私たちのメソッドは、小さなデータセットで最初からトレーニングできます。さらに、統合された音声およびジェスチャ合成システムを評価するための一連の注意深いユニモーダルおよびマルチモーダル主観テストについて説明し、それらを使用して提案されたアプローチを検証します。合成された例については、https://shivammehta25.github.io/Diff-TTSG を参照してください。
With read-aloud speech synthesis achieving high naturalness scores, there is a growing research interest in synthesising spontaneous speech. However, human spontaneous face-to-face conversation has both spoken and non-verbal aspects (here, co-speech gestures). Only recently has research begun to explore the benefits of jointly synthesising these two modalities in a single system. The previous state of the art used non-probabilistic methods, which fail to capture the variability of human speech and motion, and risk producing oversmoothing artefacts and sub-optimal synthesis quality. We present the first diffusion-based probabilistic model, called Diff-TTSG, that jointly learns to synthesise speech and gestures together. Our method can be trained on small datasets from scratch. Furthermore, we describe a set of careful uni- and multi-modal subjective tests for evaluating integrated speech and gesture synthesis systems, and use them to validate our proposed approach. For synthesised examples please see https://shivammehta25.github.io/Diff-TTSG