後期融合では、各モダリティが個別の単峰性畳み込みニューラルネットワーク(CNN)ストリームで処理され、各モダリティのスコアが最後に融合されます。そのシンプルさにより、多くの最先端のマルチモーダルアプリケーションで、後期融合が依然として主要なアプローチです。本稿では、畳み込みニューラルネットワークの複数のモダリティからの知識を活用するための単純なニューラルネットワークモジュールを提示します。マルチモーダル転送モジュール(MMTM)という名前の提案ユニットは、機能階層のさまざまなレベルで追加でき、遅いモダリティの融合を可能にします。スクイーズ操作と励起操作を使用して、MMTMは複数のモダリティの知識を利用して、各CNNストリームのチャネルごとの機能を再調整します。他の中間融合法にもかかわらず、提案されたモジュールは、異なる空間次元を持つ畳み込み層の特徴モダリティ融合に使用できます。提案された方法のもう1つの利点は、ネットワークアーキテクチャの変更を最小限に抑えてユニモーダルブランチに追加できることです。これにより、各ブランチを既存の事前トレーニング済みの重みで初期化できます。実験結果は、私たちのフレームワークがよく知られているマルチモーダルネットワークの認識精度を改善することを示しています。ダイナミックハンドジェスチャ認識、音声強調、およびRGBとボディジョイントを使用したアクション認識のタスクドメインにまたがる4つのデータセットで、最先端または競合パフォーマンスを実証します。
In late fusion, each modality is processed in a separate unimodal Convolutional Neural Network (CNN) stream and the scores of each modality are fused at the end. Due to its simplicity late fusion is still the predominant approach in many state-of-the-art multimodal applications. In this paper, we present a simple neural network module for leveraging the knowledge from multiple modalities in convolutional neural networks. The propose unit, named Multimodal Transfer Module (MMTM), can be added at different levels of the feature hierarchy, enabling slow modality fusion. Using squeeze and excitation operations, MMTM utilizes the knowledge of multiple modalities to recalibrate the channel-wise features in each CNN stream. Despite other intermediate fusion methods, the proposed module could be used for feature modality fusion in convolution layers with different spatial dimensions. Another advantage of the proposed method is that it could be added among unimodal branches with minimum changes in the their network architectures, allowing each branch to be initialized with existing pretrained weights. Experimental results show that our framework improves the recognition accuracy of well-known multimodal networks. We demonstrate state-of-the-art or competitive performance on four datasets that span the task domains of dynamic hand gesture recognition, speech enhancement, and action recognition with RGB and body joints.