以前のビジョン言語事前トレーニング モデルは、主にトークンとオブジェクト (ピクセル) を使用してマルチモーダル入力を構築し、その後、それらの間でクロス モダリティ インタラクションを実行していました。トークンとオブジェクト機能のみの入力は、フレーズから領域へのグラウンディングなどの高レベルのセマンティック アラインメントを制限すると主張します。一方、マルチレベルのアライメントは本質的に一貫しており、相乗的に表現学習を促進できます。したがって、この論文では、ビジョン言語の事前トレーニング(MVPTR)のためのマルチレベルのセマンティックアラインメントを学習することを提案します。 MVPTR では、両方のモダリティのネストされた構造に従って、概念を高レベルのセマンティクスとして導入します。マルチモーダル マルチレベル入力からの学習を容易にするために、フレームワークは 2 つの段階に分割されます。最初の段階はモダリティ内のマルチレベル表現学習に焦点を当て、2 番目の段階は粗粒度と細粒度の両方を介してモダリティ間の相互作用を強制します。セマンティック アラインメント タスク。一般的に使用される画像とテキストのマッチングとマスクされた言語モデルのタスクに加えて、概念表現の学習を強化するために、第 1 段階でマスクされた概念を回復するタスクを導入し、第 2 段階でさらに 2 つのタスクを導入して、複数レベルの整合性を明示的に促進します。モダリティ。コードは https://github.com/Junction4Nako/mvp_pytorch で入手できます。
Previous vision-language pre-training models mainly construct multi-modal inputs with tokens and objects (pixels) followed by performing cross-modality interaction between them. We argue that the input of only tokens and object features limits high-level semantic alignment like phrase-to-region grounding. Meanwhile, multi-level alignments are inherently consistent and able to facilitate the representation learning synergistically. Therefore, in this paper, we propose to learn Multi-level semantic alignment for Vision-language Pre-TRaining (MVPTR). In MVPTR, we follow the nested structure of both modalities to introduce concepts as high-level semantics. To ease the learning from multi-modal multi-level inputs, our framework is split into two stages, the first stage focuses on intra-modality multi-level representation learning, the second enforces interactions across modalities via both coarse-grained and fine-grained semantic alignment tasks. In addition to the commonly used image-text matching and masked language model tasks, we introduce a masked concept recovering task in the first stage to enhance the concept representation learning, and two more tasks in the second stage to explicitly encourage multi-level alignments across modalities. Our code is available at https://github.com/Junction4Nako/mvp_pytorch.