人工知能と短いビデオの急速な発展により、短いビデオの感情認識は、人間とコンピューターの相互作用における最も重要な研究トピックの 1 つになりました。現在、ほとんどの感情認識方法は、まだ単一のモダリティにとどまっています。しかし、日常生活において、人間は通常、本当の感情を偽装するため、単一モードの感情認識の精度が比較的低いという問題が生じます。さらに、似たような感情を区別することは容易ではありません。そこで、オーディオ、ビデオ、オプティカル フローの 3 つの異なるモダリティを採用し、単一のモダリティの欠如を補い、短いビデオの感情認識の精度を向上させることで、マルチモーダルな短いビデオの感情認識を実現するために、ICANet と呼ばれる新しいアプローチを提案します。 . ICANet は、IEMOCAP ベンチマークで 80.77% の精度を達成し、SOTA メソッドを 15.89% 上回っています。
With the fast development of artificial intelligence and short videos, emotion recognition in short videos has become one of the most important research topics in human-computer interaction. At present, most emotion recognition methods still stay in a single modality. However, in daily life, human beings will usually disguise their real emotions, which leads to the problem that the accuracy of single modal emotion recognition is relatively terrible. Moreover, it is not easy to distinguish similar emotions. Therefore, we propose a new approach denoted as ICANet to achieve multimodal short video emotion recognition by employing three different modalities of audio, video and optical flow, making up for the lack of a single modality and then improving the accuracy of emotion recognition in short videos. ICANet has a better accuracy of 80.77% on the IEMOCAP benchmark, exceeding the SOTA methods by 15.89%.