Image Transformerは、教師あり(ViT、DeiTなど)または自己教師あり(BEiT、MAEなど)の事前トレーニング手法を使用して、自然な画像の理解に大きな進歩を遂げました。この論文では、ドキュメントAIタスクに大規模なラベルなしテキスト画像を使用する自己監視事前トレーニング済みドキュメント画像トランスフォーマーモデルであるDiTを提案します。これは、人間がラベル付けしたドキュメント画像がないために監視対象が存在しないため、不可欠です。 。 DiTは、ドキュメント画像の分類、ドキュメントレイアウト分析、テーブル検出、OCRのテキスト検出など、さまざまなビジョンベースのドキュメントAIタスクのバックボーンネットワークとして活用されています。実験結果は、自己監視された事前トレーニング済みDiTモデルが、ドキュメント画像分類(91.11→92.69)、ドキュメントレイアウト分析(91.0→94.9)、テーブル検出など、これらのダウンストリームタスクで新しい最先端の結果を達成することを示しています。 (94.23→96.55)およびOCRのテキスト検出(93.07→94.29)。コードと事前トレーニング済みモデルは、https://aka.ms/msditで公開されています。
Image Transformer has recently achieved significant progress for natural image understanding, either using supervised (ViT, DeiT, etc.) or self-supervised (BEiT, MAE, etc.) pre-training techniques. In this paper, we propose DiT, a self-supervised pre-trained Document Image Transformer model using large-scale unlabeled text images for Document AI tasks, which is essential since no supervised counterparts ever exist due to the lack of human-labeled document images. We leverage DiT as the backbone network in a variety of vision-based Document AI tasks, including document image classification, document layout analysis, table detection as well as text detection for OCR. Experiment results have illustrated that the self-supervised pre-trained DiT model achieves new state-of-the-art results on these downstream tasks, e.g. document image classification (91.11 → 92.69), document layout analysis (91.0 → 94.9), table detection (94.23 → 96.55) and text detection for OCR (93.07 → 94.29). The code and pre-trained models are publicly available at https://aka.ms/msdit.