ViLBERT: 視覚・言語タスクのためのタスク非依存の視覚言語表現の事前訓練
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
タスクに依存しない画像コンテンツと自然言語の共同表現を学習するためのモデルであるViLBERT (Vision and Language BERTの略)を提示する。我々は、一般的なBERTアーキテクチャをマルチモーダルな2ストリームモデルに拡張し、視覚入力とテキスト入力の両方を、共同注意トランスフォーマ層を介して相互作用する別々のストリームで処理する。自動的に収集された大規模なConceptual Captionsデータセット上の2つのプロキシタスクを通して我々のモデルを事前訓練し、基本アーキテクチャにわずかな追加を加えるだけで、視覚的な質問回答、視覚的な常識推論、参照表現、およびキャプションベースの画像検索など、複数の確立された視覚言語タスクにこのモデルを転移させる。既存のタスク固有のモデルと比較して、タスク間で大幅な改善が見られ、4つのタスクすべてにおいて最先端を達成した。我々の研究は、視覚と言語の間の接地をタスクトレーニングの一部としてのみ学習するのではなく、視覚的な接地を事前にトレーニング可能で転移可能な能力として扱う方向にシフトしたことを示している。
We present ViLBERT (short for Vision-and-Language BERT), a model for learning task-agnostic joint representations of image content and natural language. We extend the popular BERT architecture to a multi-modal two-stream model, pro-cessing both visual and textual inputs in separate streams that interact through co-attentional transformer layers. We pretrain our model through two proxy tasks on the large, automatically collected Conceptual Captions dataset and then transfer it to multiple established vision-and-language tasks -- visual question answering, visual commonsense reasoning, referring expressions, and caption-based image retrieval -- by making only minor additions to the base architecture. We observe significant improvements across tasks compared to existing task-specific models -- achieving state-of-the-art on all four tasks. Our work represents a shift away from learning groundings between vision and language only as part of task training and towards treating visual grounding as a pretrainable and transferable capability.
updated: Tue Aug 06 2019 17:33:52 GMT+0000 (UTC)
published: Tue Aug 06 2019 17:33:52 GMT+0000 (UTC)
