最近のソーシャル ネットワークでは、テキスト、音声、豊かな表情を使って動画で自分の感情を表現することを好む人が増えています。マルチモーダル ビデオ感情分析技術は、画像内の人間の表情や身振り、声のトーン、認識された自然言語に基づいて、ユーザーの内なる世界を自動的に理解するのに役立ちます。しかし、既存の研究では、音響モダリティは、視覚的モダリティやテキストモダリティと比較して、長い間限界的な位置にありました。つまり、マルチモーダル感情認識タスク全体に対する音響モダリティの寄与を改善することは、より困難になる傾向があります。さらに、一般的な深層学習手法を導入することでより良いパフォーマンスを得ることができますが、これらのトレーニング モデルの複雑な構造により、特に高解像度で長時間のビデオにさらされると、常に推論効率が低下します。さらに、完全にエンド ツー エンドのマルチモーダル ビデオ感情認識システムの欠如は、そのアプリケーションを妨げます。この論文では、高速かつ効果的な認識推論のために完全にマルチモーダルなビデオから感情へのシステム (FV2ES という名前) を設計しました。その利点は 3 つあります。音響モダリティの、IEMOCAP と CMU-MOSEI データセットの両方で既存のモデルのパフォーマンスを上回っています。 (2) 視覚抽出にはマルチスケール、推論にはシングルブランチという考え方を導入することで、効率を高め、同時に予測精度を維持することができます。 (3) データの前処理を調整されたマルチモーダル学習モデルにさらに統合することで、計算コストとストレージ スペースを大幅に削減できます。
In the latest social networks, more and more people prefer to express their emotions in videos through text, speech, and rich facial expressions. Multimodal video emotion analysis techniques can help understand users' inner world automatically based on human expressions and gestures in images, tones in voices, and recognized natural language. However, in the existing research, the acoustic modality has long been in a marginal position as compared to visual and textual modalities. That is, it tends to be more difficult to improve the contribution of the acoustic modality for the whole multimodal emotion recognition task. Besides, although better performance can be obtained by introducing common deep learning methods, the complex structures of these training models always result in low inference efficiency, especially when exposed to high-resolution and long-length videos. Moreover, the lack of a fully end-to-end multimodal video emotion recognition system hinders its application. In this paper, we designed a fully multimodal video-to-emotion system (named FV2ES) for fast yet effective recognition inference, whose benefits are threefold: (1) The adoption of the hierarchical attention method upon the sound spectra breaks through the limited contribution of the acoustic modality and outperforms the existing models' performance on both IEMOCAP and CMU-MOSEI datasets; (2) the introduction of the idea of multi-scale for visual extraction while single-branch for inference brings higher efficiency and maintains the prediction accuracy at the same time; (3) the further integration of data pre-processing into the aligned multimodal learning model allows the significant reduction of computational costs and storage space.