仮想エージェントの開発により、人間とアバターの相互作用がますます豊かになり、多様化することが可能になりました。さらに、感情の自然な表現を模倣する表現力豊かな仮想エージェントは、ユーザー(人間)とエージェント(インテリジェントマシン)の間の社会的相互作用を強化します。したがって、仮想キャラクターの非言語的行動のセットは、人間と機械の相互作用のコンテキストで重要なコンポーネントです。笑いは単なる音声信号ではなく、音声に加えて、顔の表情や体の動きを含む、マルチモーダルな非言語コミュニケーションの本質的な関係です。モーション分析は、関連するモーションキャプチャデータセットに依存することがよくありますが、主な問題は、そのようなデータセットの取得に費用と時間がかかることです。この作品は、二者択一の会話における笑いと体の動きの関係を研究しています。体の動きは、ディープラーニングベースのポーズ推定モデルを使用してビデオから抽出されました。調査したNDC-MEデータセットでは、関節の動きの単一の統計的特徴(つまり、最大値またはフーリエ変換の最大値)が笑いの強さと30%弱く相関していることがわかりました。ただし、オーディオ機能と体の動きの間に直接的な相関関係は見つかりませんでした。このようなデータセットを音声駆動の共笑いモーション合成タスクに使用する際の課題について説明します。
The development of virtual agents has enabled human-avatar interactions to become increasingly rich and varied. Moreover, an expressive virtual agent i.e. that mimics the natural expression of emotions, enhances social interaction between a user (human) and an agent (intelligent machine). The set of non-verbal behaviors of a virtual character is, therefore, an important component in the context of human-machine interaction. Laughter is not just an audio signal, but an intrinsic relationship of multimodal non-verbal communication, in addition to audio, it includes facial expressions and body movements. Motion analysis often relies on a relevant motion capture dataset, but the main issue is that the acquisition of such a dataset is expensive and time-consuming. This work studies the relationship between laughter and body movements in dyadic conversations. The body movements were extracted from videos using deep learning based pose estimator model. We found that, in the explored NDC-ME dataset, a single statistical feature (i.e, the maximum value, or the maximum of Fourier transform) of a joint movement weakly correlates with laughter intensity by 30%. However, we did not find a direct correlation between audio features and body movements. We discuss about the challenges to use such dataset for the audio-driven co-laughter motion synthesis task.