arXiv reaDer
共同音声ジェスチャ生成のための階層的クロスモーダルアソシエーションの学習
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation
音声に一貫した体とジェスチャーの動きを生成することは、仮想アバターの作成における長年の問題です。以前の研究では、すべての関節のポーズが同時に生成される全体的な方法でポーズの動きを統合することがよくあります。このような単純なパイプラインでは、きめの細かい共同音声ジェスチャを生成できません。 1つの観察は、音声の階層的セマンティクスと人間のジェスチャーの階層構造は、自然に複数の粒度に記述され、一緒に関連付けられる可能性があるということです。スピーチオーディオと人間のジェスチャの間の豊富な接続を十分に活用するために、共同スピーチジェスチャ生成のためのHierarchical Audio-to-Gesture(HA2G)という名前の新しいフレームワークを提案します。 HA2Gでは、Hierarchical Audio Learnerは、セマンティックの粒度全体でオーディオ表現を抽出します。階層的ポーズ推論機能は、その後、人間のポーズ全体を階層的に徐々にレンダリングします。合成されたジェスチャの品質を向上させるために、オーディオとテキストの配置に基づいた対照的な学習戦略を開発し、より良いオーディオ表現を実現します。広範な実験と人間による評価は、提案された方法が現実的な共同音声ジェスチャをレンダリングし、明確なマージンで以前の方法よりも優れていることを示しています。プロジェクトページ:https://alvinliu0.github.io/projects/HA2G
Generating speech-consistent body and gesture movements is a long-standing problem in virtual avatar creation. Previous studies often synthesize pose movement in a holistic manner, where poses of all joints are generated simultaneously. Such a straightforward pipeline fails to generate fine-grained co-speech gestures. One observation is that the hierarchical semantics in speech and the hierarchical structures of human gestures can be naturally described into multiple granularities and associated together. To fully utilize the rich connections between speech audio and human gestures, we propose a novel framework named Hierarchical Audio-to-Gesture (HA2G) for co-speech gesture generation. In HA2G, a Hierarchical Audio Learner extracts audio representations across semantic granularities. A Hierarchical Pose Inferer subsequently renders the entire human pose gradually in a hierarchical manner. To enhance the quality of synthesized gestures, we develop a contrastive learning strategy based on audio-text alignment for better audio representations. Extensive experiments and human evaluation demonstrate that the proposed method renders realistic co-speech gestures and outperforms previous methods in a clear margin. Project page: https://alvinliu0.github.io/projects/HA2G
updated: Thu Mar 24 2022 16:33:29 GMT+0000 (UTC)
published: Thu Mar 24 2022 16:33:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト