arXiv reaDer
DocMAE: 自己教師あり表現学習による文書画像修正
DocMAE: Document Image Rectification via Self-supervised Representation Learning
ドキュメント画像の修正には多大な努力が払われてきましたが、そのような歪んだ画像の効果的な表現を学習する方法はまだ調査されていません。この論文では、ドキュメント画像修正のための新しい自己教師ありフレームワークであるDocMAEを紹介します。私たちの動機は、マスクされたオートエンコーダーを活用して修正、つまりドキュメントの境界とテキスト行を活用することにより、ドキュメント画像の構造的な手がかりをエンコードすることです。具体的には、最初に背景を除外したドキュメント画像のランダムなパッチをマスクし、次に欠落しているピクセルを再構築します。このような自己教師あり学習アプローチを使用すると、ネットワークは、ドキュメントの境界と欠落したテキスト行を復元することにより、変形したドキュメントの固有の構造を学習するように奨励されます。下流の整流タスクでの転送性能は、私たちの方法の有効性を検証します。私たちの方法の有効性を実証するために、広範な実験が行われています。
Tremendous efforts have been made on document image rectification, but how to learn effective representation of such distorted images is still under-explored. In this paper, we present DocMAE, a novel self-supervised framework for document image rectification. Our motivation is to encode the structural cues in document images by leveraging masked autoencoder to benefit the rectification, i.e., the document boundaries, and text lines. Specifically, we first mask random patches of the background-excluded document images and then reconstruct the missing pixels. With such a self-supervised learning approach, the network is encouraged to learn the intrinsic structure of deformed documents by restoring document boundaries and missing text lines. Transfer performance in the downstream rectification task validates the effectiveness of our method. Extensive experiments are conducted to demonstrate the effectiveness of our method.
updated: Thu Apr 20 2023 14:27:15 GMT+0000 (UTC)
published: Thu Apr 20 2023 14:27:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト