arXiv reaDer
手書きおよび印刷されたテキストのセグメント化: 特徴的なケーススタディ
Handwritten and Printed Text Segmentation: A Signature Case Study
スキャンした文書を分析しているときに、手書きのテキストが印刷されたテキストと重なることがあります。この重複により、光学式文字認識 (OCR) および文書のデジタル化プロセス中に問題が発生し、その後、下流の NLP タスクに悪影響を及ぼします。従来の研究では、手書きテキストの 2 値分類のみに焦点を当てているか、文書の 3 クラスのセグメント化 (つまり、手書きピクセル、印刷ピクセル、および背景ピクセルの認識) を実行しています。このアプローチでは、重複する手書きピクセルと印刷ピクセルがいずれかのクラスにのみ割り当てられるため、他のクラスでは考慮されません。したがって、この研究では、手書きおよび印刷されたテキストのセグメント化の課題に対処するための新しいアプローチを開発します。私たちの目的は、さまざまなクラスからテキストを全体として復元し、特に重複するセクションでのセグメンテーションのパフォーマンスを向上させることです。このタスクをサポートするために、実際の法的文書から収集された新しいデータセット SignaTR6K と、手書きおよび印刷されたテキストのセグメンテーション タスク用の新しいモデル アーキテクチャを導入します。私たちの最良の構成は、2 つの異なるデータセットに対する以前の作業よりも、IoU スコアで 17.9% および 7.3% 優れています。 SignaTR6K データセットは、https://forms.office.com/r/2a5RDg7cAY のリンクからダウンロードできます。
While analyzing scanned documents, handwritten text can overlap with printed text. This overlap causes difficulties during the optical character recognition (OCR) and digitization process of documents, and subsequently, hurts downstream NLP tasks. Prior research either focuses solely on the binary classification of handwritten text or performs a three-class segmentation of the document, i.e., recognition of handwritten, printed, and background pixels. This approach results in the assignment of overlapping handwritten and printed pixels to only one of the classes, and thus, they are not accounted for in the other class. Thus, in this research, we develop novel approaches to address the challenges of handwritten and printed text segmentation. Our objective is to recover text from different classes in their entirety, especially enhancing the segmentation performance on overlapping sections. To support this task, we introduce a new dataset, SignaTR6K, collected from real legal documents, as well as a new model architecture for the handwritten and printed text segmentation task. Our best configuration outperforms prior work on two different datasets by 17.9% and 7.3% on IoU scores. The SignaTR6K dataset is accessible for download via the following link: https://forms.office.com/r/2a5RDg7cAY.
updated: Fri Aug 25 2023 21:42:05 GMT+0000 (UTC)
published: Sat Jul 15 2023 21:49:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト