マルチモーダル学習パイプラインは、事前トレーニング済み言語モデルの成功から恩恵を受けてきました。ただし、これにはモデル パラメータの増加という代償が伴います。この作業では、Adapted Multimodal BERT (AMB) を提案します。これは、アダプター モジュールと中間融合レイヤーの組み合わせを使用するマルチモーダル タスク用の BERT ベースのアーキテクチャです。アダプターは、目の前のタスクに合わせて事前トレーニング済みの言語モデルを調整しますが、フュージョン レイヤーは、オーディオビジュアル情報とテキスト BERT 表現のタスク固有のレイヤーごとのフュージョンを実行します。適応プロセス中、事前トレーニング済みの言語モデル パラメーターは固定されたままであるため、パラメーター効率の高い高速なトレーニングが可能になります。私たちのアブレーションでは、このアプローチが効率的なモデルにつながり、微調整されたモデルよりも優れており、入力ノイズに対して堅牢であることがわかります。 CMU-MOSEI を使用したセンチメント分析の実験では、AMB がメトリック全体で現在の最先端技術よりも優れており、結果として得られるエラーが 3.4% 相対的に減少し、7 クラスの分類精度が 2.1% 相対的に向上することが示されています。
Multimodal learning pipelines have benefited from the success of pretrained language models. However, this comes at the cost of increased model parameters. In this work, we propose Adapted Multimodal BERT (AMB), a BERT-based architecture for multimodal tasks that uses a combination of adapter modules and intermediate fusion layers. The adapter adjusts the pretrained language model for the task at hand, while the fusion layers perform task-specific, layer-wise fusion of audio-visual information with textual BERT representations. During the adaptation process the pre-trained language model parameters remain frozen, allowing for fast, parameter-efficient training. In our ablations we see that this approach leads to efficient models, that can outperform their fine-tuned counterparts and are robust to input noise. Our experiments on sentiment analysis with CMU-MOSEI show that AMB outperforms the current state-of-the-art across metrics, with 3.4% relative reduction in the resulting error and 2.1% relative improvement in 7-class classification accuracy.