モーダル内およびモーダル間の相互作用をモデル化する機能は、マルチモーダル機械学習の基礎です。現在の最先端モデルは通常、固定構造の深層学習モデルを採用しています。特定のタスクでは優れたパフォーマンスを達成できますが、入力モダリティの多様性とその固定構造により、モダリティの不一致という特に困難な問題に直面しています。この論文では、この問題に対処するための視覚と言語表現の共同学習のための Switch-BERT を紹介します。 Switch-BERT は、学習可能なレイヤーごとおよびレイヤー間の相互作用を導入することで BERT アーキテクチャを拡張します。これらのインタラクションを表す一連の注意モードから注意を最適化する方法を学習します。モデルの 1 つの具体的な特性は、さまざまな深さからの出力に対応することを学習するため、モダリティの不一致の問題が軽減されることです。視覚的な質問応答、画像とテキストの検索、および表現の理解に関する広範な実験を紹介します。結果は、ViLBERT や UNITER などの代替アーキテクチャが特定のタスクでは優れている可能性があるのに対し、Switch-BERT はこれらのタスクにおいて現在の最先端モデルよりも優れた、または同等のパフォーマンスを一貫して達成できることを確認しています。アブレーション研究は、提案されたモデルがタスク固有のマルチモーダル相互作用を学習する能力により優れたパフォーマンスを達成することを示しています。
The ability to model intra-modal and inter-modal interactions is fundamental in multimodal machine learning. The current state-of-the-art models usually adopt deep learning models with fixed structures. They can achieve exceptional performances on specific tasks, but face a particularly challenging problem of modality mismatch because of diversity of input modalities and their fixed structures. In this paper, we present Switch-BERT for joint vision and language representation learning to address this problem. Switch-BERT extends BERT architecture by introducing learnable layer-wise and cross-layer interactions. It learns to optimize attention from a set of attention modes representing these interactions. One specific property of the model is that it learns to attend outputs from various depths, therefore mitigates the modality mismatch problem. We present extensive experiments on visual question answering, image-text retrieval and referring expression comprehension experiments. Results confirm that, whereas alternative architectures including ViLBERT and UNITER may excel in particular tasks, Switch-BERT can consistently achieve better or comparable performances than the current state-of-the-art models in these tasks. Ablation studies indicate that the proposed model achieves superior performances due to its ability in learning task-specific multimodal interactions.