arXiv reaDer
MMLatch:マルチモーダル感情分析のためのボトムアップトップダウンフュージョン
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis
マルチモーダル融合の現在の深層学習アプローチは、高レベルおよび中レベルの潜在的モダリティ表現(後期/中期融合)または低レベルの感覚入力(初期融合)のボトムアップ融合に依存しています。人間の知覚のモデルは、トップダウンの融合の重要性を強調しています。ここでは、高レベルの表現が感覚入力の知覚方法に影響を与えます。つまり、認知は知覚に影響を与えます。これらのトップダウンの相互作用は、現在の深層学習モデルではキャプチャされていません。この作業では、ネットワークトレーニング中のフォワードパスでフィードバックメカニズムを使用して、トップダウンのクロスモーダル相互作用をキャプチャするニューラルアーキテクチャを提案します。提案されたメカニズムは、各モダリティの高レベルの表現を抽出し、これらの表現を使用して感覚入力をマスクし、モデルがトップダウンの特徴マスキングを実行できるようにします。提案されたモデルをCMU-MOSEIのマルチモーダル感情認識に適用します。私たちの方法は、確立されたMulTと強力な後期融合ベースラインに対して一貫した改善を示し、最先端の結果を達成しています。
Current deep learning approaches for multimodal fusion rely on bottom-up fusion of high and mid-level latent modality representations (late/mid fusion) or low level sensory inputs (early fusion). Models of human perception highlight the importance of top-down fusion, where high-level representations affect the way sensory inputs are perceived, i.e. cognition affects perception. These top-down interactions are not captured in current deep learning models. In this work we propose a neural architecture that captures top-down cross-modal interactions, using a feedback mechanism in the forward pass during network training. The proposed mechanism extracts high-level representations for each modality and uses these representations to mask the sensory inputs, allowing the model to perform top-down feature masking. We apply the proposed model for multimodal sentiment recognition on CMU-MOSEI. Our method shows consistent improvements over the well established MulT and over our strong late fusion baseline, achieving state-of-the-art results.
updated: Mon Jan 24 2022 17:48:04 GMT+0000 (UTC)
published: Mon Jan 24 2022 17:48:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト