TextVQAでは、モデルが画像内のテキストを読んで推論し、それらに関する質問に答える必要があります。具体的には、モデルは、TextVQAの質問に答えるために、画像に存在するテキストの新しいモダリティとその理由を組み込む必要があります。このチャレンジでは、TextVQAタスクに生成モデルT5を使用します。 HuggingFaceリポジトリからの事前トレーニング済みチェックポイントT5-3Bに基づいて、マスクされた言語モデリング(MLM)と相対位置予測(RPP)を含む他の2つの事前トレーニングタスクは、オブジェクトの特徴とシーンテキストをより適切に位置合わせするように設計されています。事前トレーニングの段階では、エンコーダーは、質問テキスト、オブジェクトテキストラベル、シーンテキストラベル、オブジェクトビジュアル機能、シーンビジュアル機能などの複数のモダリティ間の融合を処理することに専念しています。そのデコーダーがテキストシーケンスを段階的に生成した後、デフォルトでクロスエントロピー損失が必要になります。事前トレーニングでは大規模なシーンテキストデータセットを使用し、TextVQAデータセットのみを使用してT5-3Bを微調整します。
TextVQA requires models to read and reason about text in images to answer questions about them. Specifically, models need to incorporate a new modality of text present in the images and reason over it to answer TextVQA questions. In this challenge, we use generative model T5 for TextVQA task. Based on pre-trained checkpoint T5-3B from HuggingFace repository, two other pre-training tasks including masked language modeling(MLM) and relative position prediction(RPP) are designed to better align object feature and scene text. In the stage of pre-training, encoder is dedicate to handle the fusion among multiple modalities: question text, object text labels, scene text labels, object visual features, scene visual features. After that decoder generates the text sequence step-by-step, cross entropy loss is required by default. We use a large-scale scene text dataset in pre-training and then fine-tune the T5-3B with the TextVQA dataset only.