arXiv reaDer
ストレス時の覚醒のための生理学的に適応されたゴールドスタンダード
A Physiologically-Adapted Gold Standard for Arousal during Stress
感情は本質的に主観的な心理生理学的人間状態であり、継続的な感情について合意された表現(ゴールドスタンダード)を作成するには、複数の人間のアノテーターの時間と費用のかかるトレーニング手順が必要です。生理学的信号が感情の状態、特に覚醒の十分な客観的マーカーであるという強力な証拠が文献にあります。この寄稿では、ストレス誘発シナリオ(Trier Social Stress Test)中にキャプチャされた継続的な感情および生理学的信号(1分あたりの心拍数(BPM)、皮膚電気活動(EDA)、および呼吸数)を含むデータセットを利用します。長短期記憶、リカレントニューラルネットワークを利用して、さまざまなオーディオ、ビデオ、およびテキストベースの機能から学習し、これらの生理学的信号をターゲットとしての覚醒と融合することの利点を探ります。最先端のMuSe-Toolboxを利用して、ターゲット信号を融合する際の注釈遅延と評価者間合意の重み付けの両方を考慮します。覚醒のみのゴールドスタンダードの結果と比較して、EDAを覚醒と融合すると、機能セット全体で一致相関係数(CCC)の改善が見られます。さらに、BERTベースのテキスト機能の結果は、覚醒とすべての生理学的信号で改善され、覚醒のみの.2118CCCと比較して最大.3344CCCが得られました。マルチモーダルフュージョンは、オーディオとビデオの機能を備えたCCC全体を改善し、最大.6157のCCCを取得して、覚醒とEDAおよびBPMを認識します。
Emotion is an inherently subjective psychophysiological human-state and to produce an agreed-upon representation (gold standard) for continuous emotion requires a time-consuming and costly training procedure of multiple human annotators. There is strong evidence in the literature that physiological signals are sufficient objective markers for states of emotion, particularly arousal. In this contribution, we utilise a dataset which includes continuous emotion and physiological signals - Heartbeats per Minute (BPM), Electrodermal Activity (EDA), and Respiration-rate - captured during a stress inducing scenario (Trier Social Stress Test). We utilise a Long Short-Term Memory, Recurrent Neural Network to explore the benefit of fusing these physiological signals with arousal as the target, learning from various audio, video, and textual based features. We utilise the state-of-the-art MuSe-Toolbox to consider both annotation delay and inter-rater agreement weighting when fusing the target signals. An improvement in Concordance Correlation Coefficient (CCC) is seen across features sets when fusing EDA with arousal, compared to the arousal only gold standard results. Additionally, BERT-based textual features' results improved for arousal plus all physiological signals, obtaining up to .3344 CCC compared to .2118 CCC for arousal only. Multimodal fusion also improves overall CCC with audio plus video features obtaining up to .6157 CCC to recognize arousal plus EDA and BPM.
updated: Wed Jul 28 2021 13:08:50 GMT+0000 (UTC)
published: Tue Jul 27 2021 17:28:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト