マルチモーダルデータを条件とする現実的で鮮やかな人間のような合成会話ジェスチャを実現することは、利用可能なデータセット、モデル、および標準の評価指標がないため、未解決の問題です。これに対処するために、Body-Expression-Audio-TextデータセットBEATを構築します。これには、i)8つの異なる感情と4つの異なる言語で話している30人のスピーカーからキャプチャされた76時間の高品質、マルチモーダルデータがあります。ii)32数百万のフレームレベルの感情およびセマンティック関連性の注釈。BEATに関する統計分析は、音声、テキスト、および話者のアイデンティティとの既知の相関に加えて、会話ジェスチャーと顔の表情、感情、およびセマンティクスとの相関を示しています。定性的および定量的実験は、メトリックの有効性、グラウンドトゥルースデータの品質、およびベースラインの最先端のパフォーマンスを示しています。私たちの知る限り、BEATは、人間のジェスチャを調査するための最大のモーションキャプチャデータセットであり、制御可能なジェスチャ合成、クロスモダリティ分析、感情的なジェスチャ認識など、さまざまな研究分野に貢献する可能性があります。データ、コード、モデルは研究のためにリリースされます。
Achieving realistic, vivid, and human-like synthesized conversational gestures conditioned on multi-modal data is still an unsolved problem, due to the lack of available datasets, models and standard evaluation metrics. To address this, we build Body-Expression-Audio-Text dataset, BEAT, which has i) 76 hours, high-quality, multi-modal data captured from 30 speakers talking with eight different emotions and in four different languages, ii) 32 millions frame-level emotion and semantic relevance annotations.Our statistical analysis on BEAT demonstrates the correlation of conversational gestures with facial expressions, emotions, and semantics, in addition to the known correlation with audio, text, and speaker identity. Qualitative and quantitative experiments demonstrate metrics' validness, ground truth data quality, and baseline's state-of-the-art performance. To the best of our knowledge, BEAT is the largest motion capture dataset for investigating the human gestures, which may contribute to a number of different research fields including controllable gesture synthesis, cross-modality analysis, emotional gesture recognition. The data, code and model will be released for research.