鮮やかで多様な 3D 同時音声ジェスチャを生成することは、仮想アバターをアニメーション化するさまざまなアプリケーションにとって重要です。既存の方法のほとんどは音声から直接ジェスチャを生成できますが、通常、感情が本物の同時音声ジェスチャ生成の重要な要素の 1 つであることを見落としています。この研究では、オーディオから鮮やかで多様な感情的な共同音声 3D ジェスチャを合成するための新しいフレームワークである EmotionGesture を提案します。感情は音声オーディオのリズミカルなビートと絡み合っていることが多いことを考慮して、まず感情ビートマイニングモジュール (EBM) を開発して、感情とオーディオビートの特徴を抽出し、トランスクリプトベースの視覚リズムの調整を通じてそれらの相関関係をモデル化します。次に、与えられた初期ポーズから将来のジェスチャを生成するための初期ポーズベースの空間時間プロンプター (STP) を提案します。 STP は、初期ポーズと将来のジェスチャの間の時空間相関を効果的にモデル化し、時空間的に一貫したポーズ プロンプトを生成します。ポーズ プロンプト、感情、オーディオ ビートの特徴を取得したら、トランスフォーマー アーキテクチャを通じて 3D 共同音声ジェスチャを生成します。ただし、既存のデータセットのポーズにはジッタリング効果が含まれていることが多いことを考慮すると、不安定なジェスチャが生成される可能性があります。この問題に対処するために、Motion-Smooth Loss と呼ばれる効果的な目的関数を提案します。具体的には、モーション オフセットをモデル化し、ジェスチャを強制的にスムーズにすることでグラウンドトゥルースのジッタを補正します。最後に、感情の特徴をサンプリングするための感情条件付き VAE を提示し、さまざまな感情的な結果を生成できるようにします。広範な実験により、私たちのフレームワークが最先端のフレームワークを上回っており、鮮やかで多様な感情的な同時音声 3D ジェスチャを実現していることが実証されています。
Generating vivid and diverse 3D co-speech gestures is crucial for various applications in animating virtual avatars. While most existing methods can generate gestures from audio directly, they usually overlook that emotion is one of the key factors of authentic co-speech gesture generation. In this work, we propose EmotionGesture, a novel framework for synthesizing vivid and diverse emotional co-speech 3D gestures from audio. Considering emotion is often entangled with the rhythmic beat in speech audio, we first develop an Emotion-Beat Mining module (EBM) to extract the emotion and audio beat features as well as model their correlation via a transcript-based visual-rhythm alignment. Then, we propose an initial pose based Spatial-Temporal Prompter (STP) to generate future gestures from the given initial poses. STP effectively models the spatial-temporal correlations between the initial poses and the future gestures, thus producing the spatial-temporal coherent pose prompt. Once we obtain pose prompts, emotion, and audio beat features, we will generate 3D co-speech gestures through a transformer architecture. However, considering the poses of existing datasets often contain jittering effects, this would lead to generating unstable gestures. To address this issue, we propose an effective objective function, dubbed Motion-Smooth Loss. Specifically, we model motion offset to compensate for jittering ground-truth by forcing gestures to be smooth. Last, we present an emotion-conditioned VAE to sample emotion features, enabling us to generate diverse emotional results. Extensive experiments demonstrate that our framework outperforms the state-of-the-art, achieving vivid and diverse emotional co-speech 3D gestures.