LXMERT: トランスフォーマーからのクロスモダリティエンコーダ表現の学習
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
視覚と言語の推論には、視覚的な概念、言語の意味論、そして最も重要なことに、これら2つのモダリティ間のアライメントと関係性の理解が必要である。そこで我々は、これらの視覚と言語の関係を学習するためのLXMERT (Learning Cross-Modality Encoder Representations from Transformers)フレームワークを提案する。LXMERTでは、物体関係エンコーダ、言語エンコーダ、クロスモダリティエンコーダの3つのエンコーダからなる大規模なトランスフォーマーモデルを構築する。次に、我々のモデルに視覚と言語のセマンティクスを接続する能力を持たせるために、5つの多様で代表的な事前学習タスク、マスク言語モデリング、マスク物体予測(特徴回帰とラベル分類)、クロスモダリティマッチング、画像質問応答、を介して、大量の画像と文のペアでモデルを事前学習させる。これらのタスクは、イントラモダリティとクロスモダリティの両方の関係を学習するのに役立つ。事前に学習したパラメータを微調整した後、我々のモデルは2つの視覚的質問応答データセット(VQAとGQA)で最先端の結果を達成した。また、我々の事前学習したクロスモダリティモデルを難解な視覚的推論課題であるNLVR2に適応させることで、我々のモデルの汎化能力を示し、これまでの最良の結果を22%絶対的に向上させた(54%から76%)。最後に、我々の新しいモデルコンポーネントと事前訓練戦略の両方が我々の強力な結果に大きく貢献していることを証明するための詳細なアブレーション研究を実証し、異なるエンコーダーに対するいくつかの注意の可視化を提示する。コードと事前訓練済みモデルは で公開されている。
Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities. We thus propose the LXMERT (Learning Cross-Modality Encoder Representations from Transformers) framework to learn these vision-and-language connections. In LXMERT, we build a large-scale Transformer model that consists of three encoders: an object relationship encoder, a language encoder, and a cross-modality encoder. Next, to endow our model with the capability of connecting vision and language semantics, we pre-train the model with large amounts of image-and-sentence pairs, via five diverse representative pre-training tasks: masked language modeling, masked object prediction (feature regression and label classification), cross-modality matching, and image question answering. These tasks help in learning both intra-modality and cross-modality relationships. After fine-tuning from our pre-trained parameters, our model achieves the state-of-the-art results on two visual question answering datasets (i.e., VQA and GQA). We also show the generalizability of our pre-trained cross-modality model by adapting it to a challenging visual-reasoning task, NLVR2, and improve the previous best result by 22% absolute (54% to 76%). Lastly, we demonstrate detailed ablation studies to prove that both our novel model components and pre-training strategies significantly contribute to our strong results; and also present several attention visualizations for the different encoders. Code and pre-trained models publicly available at:
updated: Tue Dec 03 2019 19:30:19 GMT+0000 (UTC)
published: Tue Aug 20 2019 17:05:18 GMT+0000 (UTC)
