この論文は、人間とコンピュータの相互作用を強化するために仮想エージェントに適用可能な、音声駆動ジェスチャ生成のための新しいフレームワークを提示します。具体的には、表現学習を組み込むことにより、音声駆動ジェスチャ生成のための最近の深層学習ベースのデータ駆動方式を拡張します。私たちのモデルは、音声を入力として受け取り、ジェスチャーを出力として3D座標のシーケンスの形式で生成します。客観的評価と主観的評価の両方によって、ネットワークの入力(音声)と出力(動き)のさまざまな表現の分析を提供します。また、生成されたモーションのスムージングの重要性を分析します。我々の結果は、提案された方法が客観的測定の観点から我々のベースラインを改善したことを示した。たとえば、モーションダイナミクスをより適切にキャプチャし、モーション速度分布によりよく一致しました。さらに、2つの異なるデータセットでユーザー調査を実施しました。研究では、提案された方法がベースラインよりも自然であると認識されていることが確認されましたが、研究の違いは適切な後処理(股関節のセンタリングと平滑化)によって排除されました。自動ジェスチャ生成方法を設計する際には、モーション表現と後処理の両方を考慮することが重要であると結論付けています。
This paper presents a novel framework for speech-driven gesture production, applicable to virtual agents to enhance human-computer interaction. Specifically, we extend recent deep-learning-based, data-driven methods for speech-driven gesture generation by incorporating representation learning. Our model takes speech as input and produces gestures as output, in the form of a sequence of 3D coordinates. We provide an analysis of different representations for the input (speech) and the output (motion) of the network by both objective and subjective evaluations. We also analyse the importance of smoothing of the produced motion. Our results indicated that the proposed method improved on our baseline in terms of objective measures. For example, it better captured the motion dynamics and better matched the motion-speed distribution. Moreover, we performed user studies on two different datasets. The studies confirmed that our proposed method is perceived as more natural than the baseline, although the difference in the studies was eliminated by appropriate post-processing: hip-centering and smoothing. We conclude that it is important to take both motion representation and post-processing into account when designing an automatic gesture-production method.