arXiv reaDer
MSAF:マルチモーダルスプリットアテンションフュージョン
MSAF: Multimodal Split Attention Fusion
マルチモーダル学習は、周囲の世界を知覚するために使用される人間の多感覚システムの推論プロセスを模倣します。予測を行う際、人間の脳は複数の情報源からの重要な手がかりを関連付ける傾向があります。この作業では、すべてのモダリティにわたってより貢献的な機能を強調することを学ぶ新しいマルチモーダル融合モジュールを提案します。具体的には、提案されたマルチモーダルスプリットアテンションフュージョン(MSAF)モジュールは、各モダリティをチャネルごとに等しい機能ブロックに分割し、機能ブロック全体で各チャネルのソフトアテンションを生成するために使用されるジョイント表現を作成します。さらに、MSAFモジュールは、CNNとRNNの両方に適した、さまざまな空間次元とシーケンス長の機能と互換性があるように設計されています。したがって、MSAFを簡単に追加して、任意のユニモーダルネットワークの機能を融合し、既存の事前トレーニング済みユニモーダルモデルの重みを利用できます。フュージョンモジュールの有効性を実証するために、感情認識、感情分析、および行動認識タスクのために、MSAFを使用して3つのマルチモーダルネットワークを設計します。私たちのアプローチは、各タスクで競争力のある結果を達成し、他のアプリケーション固有のネットワークやマルチモーダルフュージョンベンチマークを上回ります。
Multimodal learning mimics the reasoning process of the human multi-sensory system, which is used to perceive the surrounding world. While making a prediction, the human brain tends to relate crucial cues from multiple sources of information. In this work, we propose a novel multimodal fusion module that learns to emphasize more contributive features across all modalities. Specifically, the proposed Multimodal Split Attention Fusion (MSAF) module splits each modality into channel-wise equal feature blocks and creates a joint representation that is used to generate soft attention for each channel across the feature blocks. Further, the MSAF module is designed to be compatible with features of various spatial dimensions and sequence lengths, suitable for both CNNs and RNNs. Thus, MSAF can be easily added to fuse features of any unimodal networks and utilize existing pretrained unimodal model weights. To demonstrate the effectiveness of our fusion module, we design three multimodal networks with MSAF for emotion recognition, sentiment analysis, and action recognition tasks. Our approach achieves competitive results in each task and outperforms other application-specific networks and multimodal fusion benchmarks.
updated: Sun Dec 13 2020 22:42:41 GMT+0000 (UTC)
published: Sun Dec 13 2020 22:42:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト