視覚的な文書の理解は、文書画像内のテキストと視覚的要素の両方の分析を伴う複雑なタスクです。既存のモデルは多くの場合、手動の特徴量エンジニアリングやドメイン固有のパイプラインに依存しているため、さまざまなドキュメント タイプや言語にわたる一般化機能が制限されています。この論文では、ドキュメント画像の空間情報と意味情報の両方を活用する、マスクされたドキュメント テキスト生成タスク、バウンディング ボックス タスク、およびレンダリングされた質問応答タスクという 3 つの新しい目的を使用して Web ページ上で事前トレーニングされた DUBLIN を提案します。私たちのモデルは、Web ベースの構造読解、文書の視覚的な質問回答、重要な情報の抽出、図の理解、表の質問回答など、いくつかのベンチマークで競争力のある、または最先端の結果を達成しています。特に、DUBLIN が WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースのモデルであることを示します。また、私たちのモデルは、DocVQA、InfographicsVQA、OCR-VQA、AI2D データセット上で現在のピクセルベースの SOTA モデルよりもそれぞれ 4.6%、6.5%、2.6%、21% 優れていることも示しています。また、RVL-CDIP 文書分類でも競争力のあるパフォーマンスを実現します。さらに、この方向の研究を促進するために、テキストベースのデータセットをドキュメント画像としてレンダリングすることにより、新しいベースラインを作成します。
Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on web pages using three novel objectives: Masked Document Text Generation Task, Bounding Box Task, and Rendered Question Answering Task, that leverage both the spatial and semantic information in the document images. Our model achieves competitive or state-of-the-art results on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA, InfographicsVQA, OCR-VQA and AI2D datasets by 4.6%, 6.5%, 2.6% and 21%, respectively. We also achieve competitive performance on RVL-CDIP document classification. Moreover, we create new baselines for text-based datasets by rendering them as document images to promote research in this direction.