arXiv reaDer
視聴覚感情認識のための深層学習における最近の進歩の活用
Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition
感情的な表現は、私たちの感情的な状態や態度を他の人に伝える行動です。それらは、言語的および非言語的コミュニケーションを通じて表現されます。複雑な人間の行動は、複数のモダリティからの身体的特徴を研究することで理解できます。主に顔、声、身体のジェスチャー。最近、自発的なマルチモーダル感情認識が人間の行動分析のために広く研究されています。この論文では、視聴覚感情認識のための新しい深層学習ベースのアプローチを提案します。私たちのアプローチは、知識の蒸留や高性能のディープアーキテクチャなどのディープラーニングの最近の進歩を活用しています。オーディオモダリティとビジュアルモダリティの深い特徴表現は、モデルレベルの融合戦略に基づいて融合されます。次に、リカレントニューラルネットワークを使用して、時間的ダイナミクスをキャプチャします。私たちが提案するアプローチは、RECOLAデータセットの原子価を予測する際の最先端のアプローチを大幅に上回っています。さらに、提案された視覚的な表情の特徴抽出ネットワークは、AffectNetおよびGoogleの顔の表情の比較データセットでの最先端の結果よりも優れています。
Emotional expressions are the behaviors that communicate our emotional state or attitude to others. They are expressed through verbal and non-verbal communication. Complex human behavior can be understood by studying physical features from multiple modalities; mainly facial, vocal and physical gestures. Recently, spontaneous multi-modal emotion recognition has been extensively studied for human behavior analysis. In this paper, we propose a new deep learning-based approach for audio-visual emotion recognition. Our approach leverages recent advances in deep learning like knowledge distillation and high-performing deep architectures. The deep feature representations of the audio and visual modalities are fused based on a model-level fusion strategy. A recurrent neural network is then used to capture the temporal dynamics. Our proposed approach substantially outperforms state-of-the-art approaches in predicting valence on the RECOLA dataset. Moreover, our proposed visual facial expression feature extraction network outperforms state-of-the-art results on the AffectNet and Google Facial Expression Comparison datasets.
updated: Tue Sep 14 2021 08:26:09 GMT+0000 (UTC)
published: Tue Mar 16 2021 15:49:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト