ジェスチャー、顔の表情、体の姿勢、パラ言語のキューなどの非言語的行動は、言語メッセージを補完または明確にすることが示されています。したがって、アバターの形でテレプレゼンスを改善するには、特に二者間の相互作用において、これらの行動をモデル化することが重要です。このようなパーソナライズされたアバターを作成するには、アバターの発話と身体ポーズの間の個人内ダイナミクスをモデル化する必要があるだけでなく、会話に存在する対話者との個人間ダイナミクスもモデル化する必要があります。この論文では、対話型の音声と身体のポーズに条件付けられた身体のポーズのシーケンスを生成するために、選択的注意を使用して、個人内(単項)および対人(ダイアディック)ダイナミクスを統合する、Dyadic Residual-Attention Model(DRAM)という名前のニューラルアーキテクチャを紹介し、アバターを操作する人間の音声。両方の参加者のポーズと音声で構成される二項会話データの提案モデルを評価し、アバターのポーズを予測する際の単項と二項のダイナミクス間の適応的注意の重要性を確認します。また、人間の観察者の判断を分析するためにユーザー調査を実施しています。私たちの結果は、生成された体のポーズがより自然であり、非適応モナド/二項モデルよりも個人内ダイナミクスと対人ダイナミクスをモデル化することを確認しています。
Non verbal behaviours such as gestures, facial expressions, body posture, and para-linguistic cues have been shown to complement or clarify verbal messages. Hence to improve telepresence, in form of an avatar, it is important to model these behaviours, especially in dyadic interactions. Creating such personalized avatars not only requires to model intrapersonal dynamics between a avatar's speech and their body pose, but it also needs to model interpersonal dynamics with the interlocutor present in the conversation. In this paper, we introduce a neural architecture named Dyadic Residual-Attention Model (DRAM), which integrates intrapersonal (monadic) and interpersonal (dyadic) dynamics using selective attention to generate sequences of body pose conditioned on audio and body pose of the interlocutor and audio of the human operating the avatar. We evaluate our proposed model on dyadic conversational data consisting of pose and audio of both participants, confirming the importance of adaptive attention between monadic and dyadic dynamics when predicting avatar pose. We also conduct a user study to analyze judgments of human observers. Our results confirm that the generated body pose is more natural, models intrapersonal dynamics and interpersonal dynamics better than non-adaptive monadic/dyadic models.