デジタルデバイスが私たちの生活の不可欠な要素になりつつあるため、自然な人間とコンピューターの相互作用と、野外で堅牢なパフォーマンスを達成する視聴覚人間行動センシングシステムがこれまで以上に必要とされています。正確に注釈付けされた実世界のデータは、そのようなシステムを考案する際の核心です。ただし、既存のデータベースでは、通常、制御された設定、低い人口統計的変動、および単一のタスクが考慮されます。このペーパーでは、6文化、50%の女性、18歳から65歳の年齢範囲に一様に及ぶ398人の視聴覚データの2000分以上のSEWAデータベースを紹介します。被験者は、広告を見ているときとビデオチャットで広告について話し合っているときの2つの異なるコンテキストで記録されました。データベースには、顔のランドマーク、顔のアクションユニット(FAU)、さまざまな発声、ミラーリング、および継続的に評価される価数、覚醒、好み、合意、および(嫌い)のプロトタイプの例に関して、録音の豊富な注釈が含まれています。このデータベースは、アフェクティブコンピューティングと自動人間センシングの研究者にとって非常に貴重なリソースを目指しており、文化研究を含む人間の行動分析の研究を進めることが期待されています。データベースに加えて、自動FAU検出および自動原子価、覚醒、および(嫌い)強度推定のための広範なベースライン実験を提供します。
Natural human-computer interaction and audio-visual human behaviour sensing systems, which would achieve robust performance in-the-wild are more needed than ever as digital devices are increasingly becoming an indispensable part of our life. Accurately annotated real-world data are the crux in devising such systems. However, existing databases usually consider controlled settings, low demographic variability, and a single task. In this paper, we introduce the SEWA database of more than 2000 minutes of audio-visual data of 398 people coming from six cultures, 50% female, and uniformly spanning the age range of 18 to 65 years old. Subjects were recorded in two different contexts: while watching adverts and while discussing adverts in a video chat. The database includes rich annotations of the recordings in terms of facial landmarks, facial action units (FAU), various vocalisations, mirroring, and continuously valued valence, arousal, liking, agreement, and prototypic examples of (dis)liking. This database aims to be an extremely valuable resource for researchers in affective computing and automatic human sensing and is expected to push forward the research in human behaviour analysis, including cultural studies. Along with the database, we provide extensive baseline experiments for automatic FAU detection and automatic valence, arousal and (dis)liking intensity estimation.