A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition
マルチモーダル感情認識は、複数のモダリティ(オーディオ、ビジュアル、生体信号など)で多様で補完的な関係を活用でき、ノイズの多いモダリティにある程度の堅牢性を提供できるため、最近大きな注目を集めています。視聴覚(AV)融合のためのほとんどの最先端の方法は、AVモダリティの補完的な性質を効果的に活用しないリカレントネットワークまたは従来の注意メカニズムに依存しています。この論文では、ビデオから抽出された顔と声のモダリティの融合に基づく次元感情認識に焦点を当てます。具体的には、AVモダリティ全体で顕著な特徴を抽出するために補完的な関係に依存する共同クロスアテンションモデルを提案し、価数と覚醒の連続値の正確な予測を可能にします。提案された融合モデルは、機能間の不均一性を減らしながら、インターモーダル関係を効率的に活用します。特に、組み合わされた特徴表現と個々のモダリティの間の相関に基づいて、相互注意の重みを計算します。組み合わされたAV機能表現をクロスアテンションモジュールに展開することにより、フュージョンモジュールのパフォーマンスはバニラクロスアテンションモジュールよりも大幅に向上します。 AffWild2データセットからの検証セットビデオの実験結果は、提案されたAV融合モデルが最先端のアプローチを上回ることができる費用効果の高いソリューションを提供することを示しています。コードはGitHubで入手できます:。
Multimodal emotion recognition has recently gained much attention since it can leverage diverse and complementary relationships over multiple modalities (e.g., audio, visual, biosignals, etc.), and can provide some robustness to noisy modalities. Most state-of-the-art methods for audio-visual (A-V) fusion rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos. Specifically, we propose a joint cross-attention model that relies on the complementary relationships to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. The proposed fusion model efficiently leverages the inter-modal relationships, while reducing the heterogeneity between the features. In particular, it computes the cross-attention weights based on correlation between the combined feature representation and individual modalities. By deploying the combined A-V feature representation into the cross-attention module, the performance of our fusion module improves significantly over the vanilla cross-attention module. Experimental results on validation-set videos from the AffWild2 dataset indicate that our proposed A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches. The code is available on GitHub:
updated: Sat Jul 06 2024 14:49:19 GMT+0000 (UTC)
published: Mon Mar 28 2022 14:09:43 GMT+0000 (UTC)
