音声駆動のジェスチャ合成は、仮想人間の作成に対する関心が高まっている分野です。ただし、重要な課題は、音声とジェスチャの間の固有の複雑な 1 対多のマッピングです。以前の研究では、生成モデルを探索し、大きな進歩を遂げてきました。それにもかかわらず、ほとんどの合成ジェスチャは依然として非常に自然ではありません。このペーパーでは、拡散モデルに基づく新しい音声主導のジェスチャ合成アーキテクチャである DiffMotion について説明します。このモデルは、自己回帰時間エンコーダとノイズ除去拡散確率モジュールで構成されています。エンコーダーは、音声入力と履歴ジェスチャの一時的なコンテキストを抽出します。拡散モジュールは、パラメーター化されたマルコフ連鎖を学習して、単純な分布を複雑な分布に徐々に変換し、付随する音声に従ってジェスチャを生成します。ベースラインと比較して、客観的および主観的な評価により、私たちのアプローチが自然で多様なジェスチャーを生成し、音声主導のジェスチャー合成に対する拡散ベースのモデルの利点を実証できることが確認されました。
Speech-driven gesture synthesis is a field of growing interest in virtual human creation. However, a critical challenge is the inherent intricate one-to-many mapping between speech and gestures. Previous studies have explored and achieved significant progress with generative models. Notwithstanding, most synthetic gestures are still vastly less natural. This paper presents DiffMotion, a novel speech-driven gesture synthesis architecture based on diffusion models. The model comprises an autoregressive temporal encoder and a denoising diffusion probability Module. The encoder extracts the temporal context of the speech input and historical gestures. The diffusion module learns a parameterized Markov chain to gradually convert a simple distribution into a complex distribution and generates the gestures according to the accompanied speech. Compared with baselines, objective and subjective evaluations confirm that our approach can produce natural and diverse gesticulation and demonstrate the benefits of diffusion-based models on speech-driven gesture synthesis.