arXiv reaDer
EMERSK -- 状況知識を使用した説明可能なマルチモーダル感情認識
EMERSK -- Explainable Multimodal Emotion Recognition with Situational Knowledge
自動感情認識は、深層学習アルゴリズムの人気の高まりにより、最近大きな注目を集めています。感情認識における主な課題の 1 つは、データ内で利用可能なさまざまな手がかり (モダリティ) を効果的に利用することです。もう 1 つの課題は、学習結果の適切な説明を提供することです。これらの課題に対処するために、視覚情報を使用した人間の感情の認識と説明のための一般化されたモジュール式システムである、状況知識を備えた説明可能なマルチモーダル感情認識 (EMERSK) を紹介します。当社のシステムは、顔の表情、姿勢、歩行などの複数のモダリティを柔軟かつモジュール式で処理できます。ネットワークは、利用可能なデータに応じて追加または削除できるさまざまなモジュールで構成されます。畳み込みニューラル ネットワーク (CNN) とエンコーダー/デコーダー スタイルのアテンション メカニズムを備えた 2 ストリーム ネットワーク アーキテクチャを利用して、顔画像から深い特徴を抽出します。同様に、CNN と長期短期記憶 (LSTM) を備えたリカレント ニューラル ネットワーク (RNN) を使用して、姿勢と歩行のデータから特徴を抽出します。また、学習プロセスのコンテキスト情報として背景からの深い特徴も組み込みます。各モジュールの深い機能は、初期の融合ネットワークを使用して融合されます。さらに、場面から抽出した場所の種類や形容詞・名詞のペア(ANP)から得られる状況知識や、感情の時空間平均分布を活用して説明を生成します。アブレーション研究では、各サブネットワークが独立して感情認識を実行でき、それらをマルチモーダルなアプローチで組み合わせることで、全体的な認識パフォーマンスが大幅に向上することが実証されています。 GroupWalk を含むさまざまなベンチマーク データセットに対して行われた広範な実験により、他の最先端の手法と比較して、私たちのアプローチの優れたパフォーマンスが検証されました。
Automatic emotion recognition has recently gained significant attention due to the growing popularity of deep learning algorithms. One of the primary challenges in emotion recognition is effectively utilizing the various cues (modalities) available in the data. Another challenge is providing a proper explanation of the outcome of the learning.To address these challenges, we present Explainable Multimodal Emotion Recognition with Situational Knowledge (EMERSK), a generalized and modular system for human emotion recognition and explanation using visual information. Our system can handle multiple modalities, including facial expressions, posture, and gait, in a flexible and modular manner. The network consists of different modules that can be added or removed depending on the available data. We utilize a two-stream network architecture with convolutional neural networks (CNNs) and encoder-decoder style attention mechanisms to extract deep features from face images. Similarly, CNNs and recurrent neural networks (RNNs) with Long Short-term Memory (LSTM) are employed to extract features from posture and gait data. We also incorporate deep features from the background as contextual information for the learning process. The deep features from each module are fused using an early fusion network. Furthermore, we leverage situational knowledge derived from the location type and adjective-noun pair (ANP) extracted from the scene, as well as the spatio-temporal average distribution of emotions, to generate explanations. Ablation studies demonstrate that each sub-network can independently perform emotion recognition, and combining them in a multimodal approach significantly improves overall recognition performance. Extensive experiments conducted on various benchmark datasets, including GroupWalk, validate the superior performance of our approach compared to other state-of-the-art methods.
updated: Wed Jun 14 2023 17:52:37 GMT+0000 (UTC)
published: Wed Jun 14 2023 17:52:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト