視覚的に配置された言語はどこにでもあります。ソースは、図を含む教科書から、画像と表を含む Web ページ、ボタンとフォームを含むモバイル アプリにまで及びます。おそらくこの多様性が原因で、以前の作業は通常、基礎となるデータ、モデル アーキテクチャ、および目的の共有が制限されたドメイン固有のレシピに依存していました。純粋に視覚的な言語理解のための事前トレーニング済みの画像からテキストへのモデルである Pix2Struct を紹介します。このモデルは、視覚的な言語を含むタスクで微調整できます。 Pix2Struct は、Web ページのマスクされたスクリーンショットを単純化された HTML に解析することを学習することによって事前トレーニングされています。 HTML 構造にきれいに反映された豊富なビジュアル要素を備えた Web は、ダウンストリーム タスクの多様性に適した事前トレーニング データの大きなソースを提供します。直感的に、この目標は、OCR、言語モデリング、画像キャプションなどの一般的な事前トレーニング信号を包含しています。新しい事前トレーニング戦略に加えて、可変解像度の入力表現と、質問などの言語プロンプトが入力画像の上に直接レンダリングされる、言語と視覚入力のより柔軟な統合を導入します。ドキュメント、イラスト、ユーザー インターフェイス、自然画像の 4 つのドメインで、9 つのタスクのうち 6 つにおいて、単一の事前トレーニング済みモデルが最先端の結果を達成できることを初めて示しました。
Visually-situated language is ubiquitous -- sources range from textbooks with diagrams to web pages with images and tables, to mobile apps with buttons and forms. Perhaps due to this diversity, previous work has typically relied on domain-specific recipes with limited sharing of the underlying data, model architectures, and objectives. We present Pix2Struct, a pretrained image-to-text model for purely visual language understanding, which can be finetuned on tasks containing visually-situated language. Pix2Struct is pretrained by learning to parse masked screenshots of web pages into simplified HTML. The web, with its richness of visual elements cleanly reflected in the HTML structure, provides a large source of pretraining data well suited to the diversity of downstream tasks. Intuitively, this objective subsumes common pretraining signals such as OCR, language modeling, image captioning. In addition to the novel pretraining strategy, we introduce a variable-resolution input representation and a more flexible integration of language and vision inputs, where language prompts such as questions are rendered directly on top of the input image. For the first time, we show that a single pretrained model can achieve state-of-the-art results in six out of nine tasks across four domains: documents, illustrations, user interfaces, and natural images.