ビデオ、スピーチ、テキストなどの複数のモダリティからのデータの効果的な融合は、マルチモーダルデータの異種性のために困難です。この論文では、異なるモダリティからのコンテキストを効果的にモデル化することを目的とした適応融合手法を提案します。ネットワークに対して、連結などの決定論的融合操作を定義する代わりに、特定のマルチモーダル機能のセットをより効果的に組み合わせる「方法」をネットワークに決定させます。 2つのネットワークを提案します:1)コンテキストを保持しながら異なるモダリティからの情報を圧縮することを学習するAuto-Fusion、および2)モダリティを補完することからコンテキストを与えられた学習された潜在空間を正規化するGAN-Fusion。マルチモーダル機械翻訳と感情認識のタスクに関する定量的評価は、軽量で適応性のあるネットワークが、大規模なトランスベースのネットワークを採用している既存の方法よりも、他のモダリティからのコンテキストをより適切にモデル化できることを示唆しています。
Effective fusion of data from multiple modalities, such as video, speech, and text, is challenging due to the heterogeneous nature of multimodal data. In this paper, we propose adaptive fusion techniques that aim to model context from different modalities effectively. Instead of defining a deterministic fusion operation, such as concatenation, for the network, we let the network decide "how" to combine a given set of multimodal features more effectively. We propose two networks: 1) Auto-Fusion, which learns to compress information from different modalities while preserving the context, and 2) GAN-Fusion, which regularizes the learned latent space given context from complementing modalities. A quantitative evaluation on the tasks of multimodal machine translation and emotion recognition suggests that our lightweight, adaptive networks can better model context from other modalities than existing methods, many of which employ massive transformer-based networks.