arXiv reaDer
LayoutLMv3:統一されたテキストと画像マスキングを使用したドキュメントAIの事前トレーニング
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
自己監視型の事前トレーニング技術は、DocumentAIで目覚ましい進歩を遂げました。ほとんどのマルチモーダル事前トレーニングモデルは、マスクされた言語モデリングの目的を使用して、テキストモダリティの双方向表現を学習しますが、画像モダリティの事前トレーニングの目的は異なります。この不一致により、マルチモーダル表現学習が困難になります。この論文では、統一されたテキストと画像のマスキングを使用して、ドキュメントAI用のマルチモーダルトランスフォーマーを事前トレーニングするLayoutLMv3を提案します。さらに、LayoutLMv3は、テキストワードの対応する画像パッチがマスクされているかどうかを予測することにより、クロスモーダルアラインメントを学習するためのワードパッチアラインメント目標で事前トレーニングされています。シンプルな統合アーキテクチャとトレーニングの目的により、LayoutLMv3は、テキスト中心と画像中心の両方のドキュメントAIタスク用の汎用の事前トレーニング済みモデルになっています。実験結果によると、LayoutLMv3は、フォームの理解、領収書の理解、ドキュメントの視覚的な質問応答などのテキスト中心のタスクだけでなく、ドキュメントの画像分類やドキュメントのレイアウトなどの画像中心のタスクでも最先端のパフォーマンスを実現します。分析。コードとモデルはhttps://aka.ms/layoutlmv3で公開されています。
Self-supervised pre-training techniques have achieved remarkable progress in Document AI. Most multimodal pre-trained models use a masked language modeling objective to learn bidirectional representations on the text modality, but they differ in pre-training objectives for the image modality. This discrepancy adds difficulty to multimodal representation learning. In this paper, we propose LayoutLMv3 to pre-train multimodal Transformers for Document AI with unified text and image masking. Additionally, LayoutLMv3 is pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. The simple unified architecture and training objectives make LayoutLMv3 a general-purpose pre-trained model for both text-centric and image-centric Document AI tasks. Experimental results show that LayoutLMv3 achieves state-of-the-art performance not only in text-centric tasks, including form understanding, receipt understanding, and document visual question answering, but also in image-centric tasks such as document image classification and document layout analysis. The code and models are publicly available at https://aka.ms/layoutlmv3.
updated: Tue Jul 19 2022 06:41:15 GMT+0000 (UTC)
published: Mon Apr 18 2022 16:19:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト