arXiv reaDer
mPLUG:クロスモーダルスキップ接続による効果的かつ効率的なビジョン-言語学習
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections
大規模な事前トレーニング済みの基盤モデルは、人工知能(AI)システムを構築するための新たなパラダイムであり、幅広い下流のタスクに迅速に適応させることができます。この論文では、クロスモーダル理解と生成の両方のための新しいビジョン言語基盤モデルであるmPLUGを紹介します。ほとんどの既存の事前訓練されたモデルは、クロスモーダルアラインメントの長い視覚的シーケンスによってもたらされる低い計算効率と情報の非対称性の問題に悩まされています。これらの問題に対処するために、mPLUGは、新しいクロスモーダルスキップ接続を備えた効果的かつ効率的なビジョン言語アーキテクチャを導入します。これにより、ビジョン側で時間のかかる完全な自己注意のために特定の数のレイヤーをスキップするレイヤー間ショートカットが作成されます。 mPLUGは、識別と生成の両方の目的を持つ大規模な画像とテキストのペアでエンドツーエンドで事前にトレーニングされています。これは、画像のキャプション、画像テキストの取得、視覚的な接地、視覚的な質問応答など、視覚言語の幅広いダウンストリームタスクで最先端の結果を実現します。 mPLUGは、複数のビデオ言語タスクに直接転送された場合にも、強力なゼロショット転送性を示します。
Large-scale pretrained foundation models have been an emerging paradigm for building artificial intelligence (AI) systems, which can be quickly adapted to a wide range of downstream tasks. This paper presents mPLUG, a new vision-language foundation model for both cross-modal understanding and generation. Most existing pre-trained models suffer from the problems of low computational efficiency and information asymmetry brought by the long visual sequence in cross-modal alignment. To address these problems, mPLUG introduces an effective and efficient vision-language architecture with novel cross-modal skip-connections, which creates inter-layer shortcuts that skip a certain number of layers for time-consuming full self-attention on the vision side. mPLUG is pre-trained end-to-end on large-scale image-text pairs with both discriminative and generative objectives. It achieves state-of-the-art results on a wide range of vision-language downstream tasks, such as image captioning, image-text retrieval, visual grounding and visual question answering. mPLUG also demonstrates strong zero-shot transferability when directly transferred to multiple video-language tasks.
updated: Tue May 24 2022 11:52:06 GMT+0000 (UTC)
published: Tue May 24 2022 11:52:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト