arXiv reaDer
MaskOCR:マスクされたエンコーダー-デコーダーの事前トレーニングによるテキスト認識
MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining
この論文では、テキスト認識のためのMaskOCRという名前のモデル事前トレーニング手法を紹介します。私たちのテキスト認識アーキテクチャは、エンコーダー-デコーダートランスフォーマーです。エンコーダーはパッチレベルの表現を抽出し、デコーダーは表現からテキストを認識します。私たちのアプローチは、エンコーダーとデコーダーの両方を順次事前トレーニングします。 (i)ラベルのない実際のテキスト画像の大規模なセットに対して、自己監視方式でエンコーダを事前トレーニングします。表現がセマンティクスをとることを期待して、一般的な画像の有効性を示すマスクされた画像モデリングアプローチを採用します。 (ii)監視された方法で合成されたテキスト画像の大規模なセットに対してデコーダーを事前トレーニングし、エンコーダーに入力された文字とそれに応じてデコーダーに入力された表現によって占められるテキスト画像パッチをランダムにマスキングすることにより、デコーダーの言語モデリング機能を強化します。実験は、提案されたMaskOCRアプローチが、中国語と英語のテキスト画像を含むベンチマークデータセットで優れた結果を達成することを示しています。
In this paper, we present a model pretraining technique, named MaskOCR, for text recognition. Our text recognition architecture is an encoder-decoder transformer: the encoder extracts the patch-level representations, and the decoder recognizes the text from the representations. Our approach pretrains both the encoder and the decoder in a sequential manner. (i) We pretrain the encoder in a self-supervised manner over a large set of unlabeled real text images. We adopt the masked image modeling approach, which shows the effectiveness for general images, expecting that the representations take on semantics. (ii) We pretrain the decoder over a large set of synthesized text images in a supervised manner and enhance the language modeling capability of the decoder by randomly masking some text image patches occupied by characters input to the encoder and accordingly the representations input to the decoder. Experiments show that the proposed MaskOCR approach achieves superior results on the benchmark datasets, including Chinese and English text images.
updated: Wed Jun 01 2022 08:27:19 GMT+0000 (UTC)
published: Wed Jun 01 2022 08:27:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト