Web ページは、視覚言語および言語のみのタスクのための豊富でスケーラブルなリソースです。しかし、画像とキャプションのペア、長いテキストの記事、未加工の HTML など、Web ページの一部だけが保持されるだけで、すべてが 1 か所にまとめられることはありません。その結果、ウェブページのタスクはほとんど注目されず、構造化された画像とテキストのデータは十分に活用されていません。マルチモーダル Web ページの理解を研究するために、2M ページの Wikipedia Web ページ スイート (WikiWeb2M) を紹介します。ページ記述の生成、セクションの要約、および文脈上の画像キャプションの 3 つの生成タスクで、その有用性を検証します。最も関連性の高い画像とテキスト コンテンツをグローバル トークンとして選択し、Web ページの残りのコンテキストに注意を向ける新しい注意メカニズム Prefix Global を設計します。ページ構造を使用してそのようなトークンを分離することにより、計算の複雑さを抑えながら、完全な注意よりも優れたパフォーマンスを発揮します。実験では、WikiWeb2M からの新しい注釈が、以前の作業からのデータと比較してタスクのパフォーマンスを向上させることが示されています。また、シーケンスの長さ、入力機能、およびモデル サイズのアブレーションも含まれています。
Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.