arXiv reaDer
音声ドライブテンプレート:学習したテンプレートを使用した共同音声ジェスチャ合成
Speech Drives Templates: Co-Speech Gesture Synthesis with Learned Templates
共同音声ジェスチャ生成は、リアルに見えるだけでなく、入力された音声オーディオとも一致するジェスチャシーケンスを合成することです。私たちの方法は、腕、手、頭を含む完全な上半身の動きを生成します。最近のデータ駆動型の方法は大きな成功を収めていますが、多様性の制限、忠実度の低さ、客観的な指標の欠如などの課題が依然として存在します。スピーチがジェスチャを完全に決定できないという事実に動機付けられて、あいまいさを軽減する潜在的な条件をモデル化するためのジェスチャテンプレートベクトルのセットを学習するメソッドを設計します。私たちの方法では、テンプレートベクトルが生成されたジェスチャシーケンスの一般的な外観を決定し、音声オーディオが身体の微妙な動きを駆動します。どちらも現実的なジェスチャシーケンスを合成するために不可欠です。ジェスチャと音声の同期の客観的な指標は扱いにくいため、モデルの同期能力を調整および評価するためのプロキシ指標としてリップシンクエラーを採用しています。広範な実験は、忠実度と同期に関する客観的および主観的な評価の両方で私たちの方法の優位性を示しています。
Co-speech gesture generation is to synthesize a gesture sequence that not only looks real but also matches with the input speech audio. Our method generates the movements of a complete upper body, including arms, hands, and the head. Although recent data-driven methods achieve great success, challenges still exist, such as limited variety, poor fidelity, and lack of objective metrics. Motivated by the fact that the speech cannot fully determine the gesture, we design a method that learns a set of gesture template vectors to model the latent conditions, which relieve the ambiguity. For our method, the template vector determines the general appearance of a generated gesture sequence, while the speech audio drives subtle movements of the body, both indispensable for synthesizing a realistic gesture sequence. Due to the intractability of an objective metric for gesture-speech synchronization, we adopt the lip-sync error as a proxy metric to tune and evaluate the synchronization ability of our model. Extensive experiments show the superiority of our method in both objective and subjective evaluations on fidelity and synchronization.
updated: Mon Nov 29 2021 07:13:04 GMT+0000 (UTC)
published: Wed Aug 18 2021 07:53:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト