これまでの同時発話ジェスチャ生成手法は、発話内容に応じた動作を合成することは可能でしたが、多様で複雑な動作分布に対応するにはまだ不十分でした。主な課題は次のとおりです。1) スピーチの内容とジェスチャーの間の 1 対多の性質。 2) 身体関節間の相関モデリング。この論文では、ノイズ除去拡散モデルを使用して上記の課題に取り組むための新しいフレームワーク (EMoG) を紹介します。 1) 1 対多の問題を軽減するために、生成プロセスをガイドする感情の手がかりを組み込み、生成をはるかに容易にします。 2) 関節相関をモデル化するために、困難なジェスチャ生成を 2 つのサブ問題、関節相関モデリングと時間ダイナミクス モデリングに分解することを提案します。次に、2 つのサブ問題は、私たちが提案する Joint Correlation-aware transFormer (JCFormer) を使用して明示的に取り組みます。広範な評価を通じて、私たちの提案した方法が以前の最先端のアプローチを上回り、ジェスチャ合成において大幅な優位性を提供することを実証しました。
Although previous co-speech gesture generation methods are able to synthesize motions in line with speech content, it is still not enough to handle diverse and complicated motion distribution. The key challenges are: 1) the one-to-many nature between the speech content and gestures; 2) the correlation modeling between the body joints. In this paper, we present a novel framework (EMoG) to tackle the above challenges with denoising diffusion models: 1) To alleviate the one-to-many problem, we incorporate emotion clues to guide the generation process, making the generation much easier; 2) To model joint correlation, we propose to decompose the difficult gesture generation into two sub-problems: joint correlation modeling and temporal dynamics modeling. Then, the two sub-problems are explicitly tackled with our proposed Joint Correlation-aware transFormer (JCFormer). Through extensive evaluations, we demonstrate that our proposed method surpasses previous state-of-the-art approaches, offering substantial superiority in gesture synthesis.