arXiv reaDer
ディープ ニューラル ネットワークを使用した映画の感情体験の予測の強化: 音声と言語の重要性
Enhancing the Prediction of Emotional Experience in Movies using Deep Neural Networks: The Significance of Audio and Language
私たちの論文は、ディープ ニューラル ネットワーク モデルを利用して、映画鑑賞中に経験される人間の感情の範囲を正確に予測することに焦点を当てています。この特定の設定では、体験される感情に大きな影響を与える 3 つの明確な入力モダリティが存在します。それは、RGB ビデオ フレームから得られる視覚的手がかり、音声、音声、音楽を含む聴覚要素、および俳優の対話を含む言語要素です。感情は通常、価度 (幸せから悲しみまで) と覚醒 (感情の強さを示す) を含む 2 要素モデルを使用して記述されます。この点に関して、ビデオ コンテンツからの興奮と興奮を予測することを目的とした多数のモデルが、数多くの研究で提示されています。ただし、これらのモデルには 3 つのモダリティすべてが含まれているわけではなく、すべてのモダリティで一貫して言語が排除されています。この研究では、すべてのモダリティを包括的に組み合わせて分析を実施し、価性と覚醒を予測する際のそれぞれの重要性を確認します。事前にトレーニングされたニューラル ネットワークを利用して、研究では各入力モダリティを表現します。視覚入力を処理するために、事前にトレーニングされた畳み込みニューラル ネットワークを使用して、シーン[1]、オブジェクト[2]、およびアクション[3、4]を認識します。オーディオ処理には、サウンド関連タスクを処理するために設計された特殊なニューラル ネットワーク、つまり SoundNet[5] を利用します。最後に、分析では言語的特徴を抽出するために Bidirectional Encoder Representations from Transformers (BERT) モデルが使用されています [6]。私たちは COGNIMUSE データセット [7] に関する結果を報告します。そこでは、私たちが提案したモデルが現在の最先端のアプローチよりも優れています。驚くべきことに、私たちの研究結果は、言語が経験された興奮に大きく影響する一方、音が価性を予測するための主な決定要因として浮上していることを明らかにしました。対照的に、視覚モダリティは、感情の予測においてすべてのモダリティの中で最も影響が少ないです。
Our paper focuses on making use of deep neural network models to accurately predict the range of human emotions experienced during watching movies. In this certain setup, there exist three clear-cut input modalities that considerably influence the experienced emotions: visual cues derived from RGB video frames, auditory components encompassing sounds, speech, and music, and linguistic elements encompassing actors' dialogues. Emotions are commonly described using a two-factor model including valence (ranging from happy to sad) and arousal (indicating the intensity of the emotion). In this regard, a Plethora of works have presented a multitude of models aiming to predict valence and arousal from video content. However, non of these models contain all three modalities, with language being consistently eliminated across all of them. In this study, we comprehensively combine all modalities and conduct an analysis to ascertain the importance of each in predicting valence and arousal. Making use of pre-trained neural networks, we represent each input modality in our study. In order to process visual input, we employ pre-trained convolutional neural networks to recognize scenes[1], objects[2], and actions[3,4]. For audio processing, we utilize a specialized neural network designed for handling sound-related tasks, namely SoundNet[5]. Finally, Bidirectional Encoder Representations from Transformers (BERT) models are used to extract linguistic features[6] in our analysis. We report results on the COGNIMUSE dataset[7], where our proposed model outperforms the current state-of-the-art approaches. Surprisingly, our findings reveal that language significantly influences the experienced arousal, while sound emerges as the primary determinant for predicting valence. In contrast, the visual modality exhibits the least impact among all modalities in predicting emotions.
updated: Sat Jun 17 2023 17:40:27 GMT+0000 (UTC)
published: Sat Jun 17 2023 17:40:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト