arXiv reaDer
回帰ベースの感情認識における視聴覚融合のための再帰的共同注意
Recursive Joint Attention for Audio-Visual Fusion in Regression based Emotion Recognition
ビデオベースの感情認識 (ER) では、個々のモダリティのイントラモーダル特性を維持しながら、オーディオ (A) モダリティとビジュアル (V) モダリティ間の補完関係を効果的に活用することが重要です。この論文では、回帰ベースの ER における音声と顔の表情の融合のための長期短期記憶 (LSTM) モジュールとともに、再帰的な共同注意モデルが提案されています。具体的には、LSTM を使用した再帰的な方法でジョイント クロスアテンション モデルを使用して、A および V モダリティの補完的な性質を利用して、同じモダリティ内および AV 機能表現間でモーダル内の時間的依存関係をキャプチャする可能性を調査しました。 LSTM を再帰的な共同相互注意と統合することにより、モデルは A モダリティと V モダリティの融合のために、モーダル内およびモーダル間の関係の両方を効率的に活用できます。挑戦的な Affwild2 および Fatigue (プライベート) データセットで実行された広範な実験の結果は、提案された AV 融合モデルが最先端の方法よりも大幅に優れていることを示しています。
In video-based emotion recognition (ER), it is important to effectively leverage the complementary relationship among audio (A) and visual (V) modalities, while retaining the intra-modal characteristics of individual modalities. In this paper, a recursive joint attention model is proposed along with long short-term memory (LSTM) modules for the fusion of vocal and facial expressions in regression-based ER. Specifically, we investigated the possibility of exploiting the complementary nature of A and V modalities using a joint cross-attention model in a recursive fashion with LSTMs to capture the intra-modal temporal dependencies within the same modalities as well as among the A-V feature representations. By integrating LSTMs with recursive joint cross-attention, our model can efficiently leverage both intra- and inter-modal relationships for the fusion of A and V modalities. The results of extensive experiments performed on the challenging Affwild2 and Fatigue (private) datasets indicate that the proposed A-V fusion model can significantly outperform state-of-art-methods.
updated: Mon Apr 17 2023 02:57:39 GMT+0000 (UTC)
published: Mon Apr 17 2023 02:57:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト