近年の機械読解の研究では、テキストレベルの理解に焦点が当てられているが、実世界の文書の視覚的なレイアウトや内容を人間が理解するレベルにはまだ達していない。本研究では、VisualMRCと呼ばれる新しい視覚的機械読解データセットを紹介する。このデータセットでは、質問と文書画像が与えられると、機械が画像内のテキストを読み取って理解し、自然言語で質問に答える。VisualMRCは、画像中のテキストを含む既存の視覚的質問応答(VQA)データセットと比較して、自然言語の理解と生成能力の開発に重点を置いている。VisualMRCは、複数のドメインのウェブページから抽出した10,000以上の文書画像に対して、30,000以上の質問と抽象的な回答のペアを含んでいる。また、大規模なテキストコーパスで事前に学習された既存のsequence-to-sequenceモデルを拡張し、文書の視覚的なレイアウトや内容を考慮した新しいモデルを導入する。VisualMRCを用いた実験によると、このモデルは、基本的なsequence-to-sequenceモデルや最新のVQAモデルを上回る性能を示した。しかし、ほとんどの自動評価指標において、その性能は人間のそれを下回っている。このデータセットは、視覚と言語理解を結びつけることを目的とした研究を促進するものである。
Recent studies on machine reading comprehension have focused on text-level understanding but have not yet reached the level of human understanding of the visual layout and content of real-world documents. In this study, we introduce a new visual machine reading comprehension dataset, named VisualMRC, wherein given a question and a document image, a machine reads and comprehends texts in the image to answer the question in natural language. Compared with existing visual question answering (VQA) datasets that contain texts in images, VisualMRC focuses more on developing natural language understanding and generation abilities. It contains 30,000+ pairs of a question and an abstractive answer for 10,000+ document images sourced from multiple domains of webpages. We also introduce a new model that extends existing sequence-to-sequence models, pre-trained with large-scale text corpora, to take into account the visual layout and content of documents. Experiments with VisualMRC show that this model outperformed the base sequence-to-sequence models and a state-of-the-art VQA model. However, its performance is still below that of humans on most automatic evaluation metrics. The dataset will facilitate research aimed at connecting vision and language understanding.