スキャンした文書を分析しているときに、手書きのテキストが印刷されたテキストに重なることがあります。これにより、光学式文字認識 (OCR) および文書のデジタル化プロセス中に問題が発生し、その後、下流の NLP タスクに悪影響を及ぼします。従来の研究では、手書きテキストのバイナリ分類のみに焦点を当てているか、文書の 3 クラスのセグメント化 (つまり、手書きピクセル、印刷ピクセル、および背景ピクセルの認識) を実行しています。この結果、手書きおよび印刷された重複ピクセルはいずれかのクラスにのみ割り当てられるため、他のクラスでは考慮されません。そこで、本研究では、異なるクラスのテキストを全体的に復元し、特に重なり合う部分のセグメンテーションのパフォーマンスを向上させることを目的として、手書きテキストと印刷テキストのセグメンテーションの課題に対処するための新しいアプローチを開発します。そのため、このタスクを容易にするために、実際の法的文書から収集された新しいデータセット SignaTR6K と、手書きおよび印刷されたテキストのセグメンテーション タスク用の新しいモデル アーキテクチャを導入します。私たちの最良の構成は、2 つの異なるデータセットに対する以前の作業よりも、IoU スコアで 17.9% および 7.3% 優れています。
While analyzing scanned documents, handwritten text can overlay printed text. This causes difficulties during the optical character recognition (OCR) and digitization process of documents, and subsequently, hurts downstream NLP tasks. Prior research either focuses only on the binary classification of handwritten text, or performs a three-class segmentation of the document, i.e., recognition of handwritten, printed, and background pixels. This results in the assignment of the handwritten and printed overlapping pixels to only one of the classes, and thus, they are not accounted for in the other class. Thus, in this research, we develop novel approaches for addressing the challenges of handwritten and printed text segmentation with the goal of recovering text in different classes in whole, especially improving the segmentation performance on the overlapping parts. As such, to facilitate with this task, we introduce a new dataset, SignaTR6K, collected from real legal documents, as well as a new model architecture for handwritten and printed text segmentation task. Our best configuration outperforms the prior work on two different datasets by 17.9% and 7.3% on IoU scores.