感情認識は、行動のさまざまな側面をモデル化する手法を改善するにつれて、ヒューマンコンピューターインタラクションの重要な研究分野になりました。技術の進歩に伴い、私たちの感情の理解が進んでおり、自動感情認識システムの必要性が高まっています。研究の方向性の1つは、多数の多様な入力データソースに依存する複雑な関数の推定に長けているニューラルネットワークの使用です。この論文では、ニューラルネットワークのこの有効性を活用して、音声、テキスト、顔の表情、回転、手の動きのデータを使用して、IEMOCAPデータセットでマルチモーダルな感情認識を実行できるようにします。以前の研究はIEMOCAPデータセットの音声からの感情検出に集中していましたが、私たちのアプローチは、より堅牢で正確な感情検出のためにIEMOCAPが提供する複数のデータモードを使用する最初のアプローチです。
Emotion recognition has become an important field of research in Human Computer Interactions as we improve upon the techniques for modelling the various aspects of behaviour. With the advancement of technology our understanding of emotions are advancing, there is a growing need for automatic emotion recognition systems. One of the directions the research is heading is the use of Neural Networks which are adept at estimating complex functions that depend on a large number and diverse source of input data. In this paper we attempt to exploit this effectiveness of Neural networks to enable us to perform multimodal Emotion recognition on IEMOCAP dataset using data from Speech, Text, and Motion capture data from face expressions, rotation and hand movements. Prior research has concentrated on Emotion detection from Speech on the IEMOCAP dataset, but our approach is the first that uses the multiple modes of data offered by IEMOCAP for a more robust and accurate emotion detection.