UNITER:UNiversal Image-TExt表現学習
UNITER: UNiversal Image-TExt Representation Learning
共同画像とテキストの埋め込みは、ほとんどの視覚言語(V + L)タスクの基盤であり、マルチモダリティ入力が同時に視覚とテキストの理解のために処理されます。このホワイトペーパーでは、UNIversal Image-TExt表現であるUNITERを紹介します。これは、4つの画像テキストデータセット(COCO、ビジュアルゲノム、概念キャプション、SBUキャプション)の大規模な事前トレーニングを通じて学習し、異種のダウンストリームV +に電力を供給できます。共同マルチモーダル埋め込みを含むLタスク。トレーニング前の4つのタスクを設計します:マスク言語モデリング(MLM)、マスク領域モデリング(MRM、3つのバリアント)、画像-テキストマッチング(ITM)、および単語領域の配置(WRA)。両方のモダリティに共同ランダムマスキングを適用する以前の作業とは異なり、事前トレーニングタスクで条件付きマスキングを使用します(つまり、マスクされた言語/領域のモデリングは、画像/テキストの完全な観察を条件としています)。グローバルな画像とテキストの配置のためのITMに加えて、最適なトランスポート(OT)を使用してWRAを提案し、事前トレーニング中に単語と画像領域間のきめの細かい配置を明示的に奨励します。包括的な分析は、条件付きマスキングとOTベースのWRAの両方がより良い事前トレーニングに貢献することを示しています。また、完全なアブレーション研究を実施して、事前トレーニングタスクの最適な組み合わせを見つけます。大規模な実験により、UNITERは、視覚的質問応答、イメージテキスト検索、参照式理解、視覚的常識推論、視覚的含意、NLVR ^ 2など、6つのV + Lタスク(9つ以上のデータセット)にわたって新しい最先端の技術を実現することが示されています。コードはで入手できます。
Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are simultaneously processed for joint visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design four pre-training tasks: Masked Language Modeling (MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition to ITM for global image-text alignment, we also propose WRA via the use of Optimal Transport (OT) to explicitly encourage fine-grained alignment between words and image regions during pre-training. Comprehensive analysis shows that both conditional masking and OT-based WRA contribute to better pre-training. We also conduct a thorough ablation study to find an optimal combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR^2. Code is available at
updated: Fri Jul 17 2020 22:19:59 GMT+0000 (UTC)
published: Wed Sep 25 2019 20:02:54 GMT+0000 (UTC)
