arXiv reaDer
LMR-CBT:アラインされていないマルチモーダルシーケンスからのマルチモーダル感情認識のためのCB-Transformerを使用したモダリティ融合表現の学習
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences
モダリティ融合表現を学習し、整列されていないマルチモーダルシーケンスを処理することは、マルチモーダル感情認識において意味があり、挑戦的です。既存のアプローチでは、方向性のあるペアワイズアテンションまたはメッセージハブを使用して、言語、視覚、および音声のモダリティを融合します。ただし、これらのアプローチは、機能を融合するときに情報の冗長性をもたらし、モダリティの相補性を考慮しないと非効率的です。この論文では、アラインされていないマルチモーダルシーケンスからマルチモーダル感情認識のためのCB-Transformer(LMR-CBT)を使用してモダリティ融合表現を学習するための効率的なニューラルネットワークを提案します。具体的には、最初に3つのモダリティの特徴抽出をそれぞれ実行して、シーケンスのローカル構造を取得します。次に、クロスモーダルブロックを備えた新しいトランスフォーマー(CB-Transformer)を設計します。これにより、主にローカル時間学習、クロスモーダル特徴融合、グローバル自己注意表現に分割された、さまざまなモダリティの補完的な学習が可能になります。さらに、融合された特徴を元の特徴とつなぎ合わせて、シーケンスの感情を分類します。最後に、IEMOCAP、CMU-MOSI、およびCMU-MOSEIの3つの難しいデータセットに対して、ワードアラインおよび非アラインの実験を行います。実験結果は、両方の設定で提案された方法の優位性と効率を示しています。主流の方法と比較して、私たちのアプローチは、最小限のパラメーター数で最先端に到達します。
Learning modality-fused representations and processing unaligned multimodal sequences are meaningful and challenging in multimodal emotion recognition. Existing approaches use directional pairwise attention or a message hub to fuse language, visual, and audio modalities. However, those approaches introduce information redundancy when fusing features and are inefficient without considering the complementarity of modalities. In this paper, we propose an efficient neural network to learn modality-fused representations with CB-Transformer (LMR-CBT) for multimodal emotion recognition from unaligned multimodal sequences. Specifically, we first perform feature extraction for the three modalities respectively to obtain the local structure of the sequences. Then, we design a novel transformer with cross-modal blocks (CB-Transformer) that enables complementary learning of different modalities, mainly divided into local temporal learning,cross-modal feature fusion and global self-attention representations. In addition, we splice the fused features with the original features to classify the emotions of the sequences. Finally, we conduct word-aligned and unaligned experiments on three challenging datasets, IEMOCAP, CMU-MOSI, and CMU-MOSEI. The experimental results show the superiority and efficiency of our proposed method in both settings. Compared with the mainstream methods, our approach reaches the state-of-the-art with a minimum number of parameters.
updated: Fri Dec 03 2021 03:43:18 GMT+0000 (UTC)
published: Fri Dec 03 2021 03:43:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト