arXiv reaDer
StrucTexTv2: ドキュメント画像の事前トレーニングのためのマスクされた視覚テキスト予測
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training
このホワイトペーパーでは、マスクされたビジュアルテキスト予測を実行することにより、効果的なドキュメント画像の事前トレーニングフレームワークである StrucTexTv2 を紹介します。これは、テキスト領域レベルの画像マスキングに基づく、マスクされた画像モデリングとマスクされた言語モデリングの 2 つの自己監視型の事前トレーニング タスクで構成されます。提案された方法は、テキスト単語のバウンディングボックス座標に従って、いくつかの画像領域をランダムにマスクします。事前トレーニング タスクの目的は、マスクされた画像領域のピクセルと対応するマスクされたトークンを同時に再構築することです。したがって、事前トレーニング済みのエンコーダーは、マスクされた画像パッチを通常予測するマスクされた画像モデリングと比較して、より多くのテキスト セマンティクスをキャプチャできます。画像とテキストの両方のモダリティに依存するドキュメント画像理解のためのマスクされたマルチモーダル モデリング手法と比較して、StrucTexTv2 は画像のみの入力をモデル化し、OCR 前処理なしでより多くのアプリケーション シナリオを処理できる可能性があります。ドキュメント画像理解の主流ベンチマークに関する広範な実験により、StrucTexTv2 の有効性が実証されています。エンドツーエンドのシナリオで、画像分類、レイアウト分析、テーブル構造認識、ドキュメント OCR、情報抽出などのさまざまなダウンストリーム タスクで、競争力のある、または新しい最先端のパフォーマンスを実現します。
In this paper, we present StrucTexTv2, an effective document image pre-training framework, by performing masked visual-textual prediction. It consists of two self-supervised pre-training tasks: masked image modeling and masked language modeling, based on text region-level image masking. The proposed method randomly masks some image regions according to the bounding box coordinates of text words. The objectives of our pre-training tasks are reconstructing the pixels of masked image regions and the corresponding masked tokens simultaneously. Hence the pre-trained encoder can capture more textual semantics in comparison to the masked image modeling that usually predicts the masked image patches. Compared to the masked multi-modal modeling methods for document image understanding that rely on both the image and text modalities, StrucTexTv2 models image-only input and potentially deals with more application scenarios free from OCR pre-processing. Extensive experiments on mainstream benchmarks of document image understanding demonstrate the effectiveness of StrucTexTv2. It achieves competitive or even new state-of-the-art performance in various downstream tasks such as image classification, layout analysis, table structure recognition, document OCR, and information extraction under the end-to-end scenario.
updated: Wed Mar 01 2023 07:32:51 GMT+0000 (UTC)
published: Wed Mar 01 2023 07:32:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト