VL-BERT: 汎用視覚言語表現の事前学習
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
我々は、Visual-Linguistic BERT(略してVL-BERT)と呼ばれる、視覚-言語タスクのための新しい事前学習可能な汎用表現を導入する。VL-BERTは、シンプルでありながら強力なTransformerモデルをバックボーンとして採用し、視覚的および言語的に埋め込まれた特徴の両方を入力として取るように拡張する。VL-BERTでは、入力の各要素は、入力文の単語か、入力画像の関心領域(RoI)のいずれかである。この汎用表現は、視覚言語学的な下流タスクのほとんどに適合するように設計されている。一般的な表現をよりよく利用するために、大規模な概念的キャプションデータセットとテキストのみのコーパスを用いて、VL-BERTの事前学習を行った。広範な実証分析の結果、事前学習を行うことで、視覚的言語的な手がかりをより良く整列させることができ、視覚的常識推論、視覚的質問回答、参照表現理解などの下流タスクに利益をもたらすことが実証された。VL-BERTがVCRベンチマークのリーダーボードで単一モデルの第1位を獲得したことは注目に値する。コードは で公開されている。
We introduce a new pre-trainable generic representation for visual-linguistic tasks, called Visual-Linguistic BERT (VL-BERT for short). VL-BERT adopts the simple yet powerful Transformer model as the backbone, and extends it to take both visual and linguistic embedded features as input. In it, each element of the input is either of a word from the input sentence, or a region-of-interest (RoI) from the input image. It is designed to fit for most of the visual-linguistic downstream tasks. To better exploit the generic representation, we pre-train VL-BERT on the massive-scale Conceptual Captions dataset, together with text-only corpus. Extensive empirical analysis demonstrates that the pre-training procedure can better align the visual-linguistic clues and benefit the downstream tasks, such as visual commonsense reasoning, visual question answering and referring expression comprehension. It is worth noting that VL-BERT achieved the first place of single model on the leaderboard of the VCR benchmark. Code is released at
updated: Tue Feb 18 2020 02:59:17 GMT+0000 (UTC)
published: Thu Aug 22 2019 17:59:30 GMT+0000 (UTC)
