現実的な共同発話ジェスチャーの自動合成は、人工的な身体化されたエージェントの作成において、ますます重要でありながら困難なタスクです。以前のシステムは、主にエンドツーエンドの方法でジェスチャを生成することに重点を置いていました。これは、音声とジェスチャの間の複雑でありながら微妙な調和のために、明確なリズムとセマンティクスをマイニングすることを困難にします。リズムとセマンティクスの両方で説得力のある結果を達成する新しい共同音声ジェスチャ合成方法を提示します。リズムについては、システムには堅牢なリズムベースのセグメンテーション パイプラインが含まれており、発声とジェスチャーの間の時間的な一貫性を明示的に保証します。ジェスチャのセマンティクスについては、言語理論に基づいて、発話と動作の低レベルと高レベルの両方のニューラル埋め込みを効果的に解きほぐすメカニズムを考案します。高レベルの埋め込みはセマンティクスに対応し、低レベルの埋め込みは微妙なバリエーションに関連しています。最後に、音声とモーションの階層的な埋め込み間の対応を構築し、リズムとセマンティクスを意識したジェスチャ合成を実現します。既存の客観的指標、新しく提案されたリズミカルな指標、および人間のフィードバックによる評価は、私たちの方法が最先端のシステムよりも明らかに優れていることを示しています。
Automatic synthesis of realistic co-speech gestures is an increasingly important yet challenging task in artificial embodied agent creation. Previous systems mainly focus on generating gestures in an end-to-end manner, which leads to difficulties in mining the clear rhythm and semantics due to the complex yet subtle harmony between speech and gestures. We present a novel co-speech gesture synthesis method that achieves convincing results both on the rhythm and semantics. For the rhythm, our system contains a robust rhythm-based segmentation pipeline to ensure the temporal coherence between the vocalization and gestures explicitly. For the gesture semantics, we devise a mechanism to effectively disentangle both low- and high-level neural embeddings of speech and motion based on linguistic theory. The high-level embedding corresponds to semantics, while the low-level embedding relates to subtle variations. Lastly, we build correspondence between the hierarchical embeddings of the speech and the motion, resulting in rhythm- and semantics-aware gesture synthesis. Evaluations with existing objective metrics, a newly proposed rhythmic metric, and human feedback show that our method outperforms state-of-the-art systems by a clear margin.