An end-to-end Optical Character Recognition approach for ultra-low-resolution printed text images
一部の履歴および最近の印刷ドキュメントは、60dpiなどの非常に低い解像度でスキャンまたは保存されています。このようなスキャンは人間にとって比較的読みやすいものですが、それでも光学式文字認識(OCR)システムには重大な課題があります。現在の最先端技術は、超解像を使用して元の高解像度画像の近似を再構築し、これを標準のOCRシステムに供給することです。私たちの新しいエンドツーエンドの方法は、超解像ステップをバイパスし、より良いOCR結果を生成します。このアプローチは、人間の視覚システムの理解から着想を得ており、OCRを実行するための確立されたニューラルネットワークに基づいています。私たちの実験では、英語のテキストの60 dpiのスキャン画像でOCRを実行できることが示されました。これは、最先端の解像度よりも大幅に低い解像度であり、99.7%の平均文字レベル精度(CLA)を達成しました。さまざまなフォントの60dpiテキストの約1000ページのセット全体で98.9%のワードレベル精度(WLA)。 75 dpiの画像の場合、同じテキストサンプルで平均CLAは99.9%、平均WLAは99.4%でした。この分野での将来の作業のベンチマークとして、コードとデータ(グラウンドトゥルースを含む低解像度画像のセットを含む)を公開します。
Some historical and more recent printed documents have been scanned or stored at very low resolutions, such as 60 dpi. Though such scans are relatively easy for humans to read, they still present significant challenges for optical character recognition (OCR) systems. The current state-of-the art is to use super-resolution to reconstruct an approximation of the original high-resolution image and to feed this into a standard OCR system. Our novel end-to-end method bypasses the super-resolution step and produces better OCR results. This approach is inspired from our understanding of the human visual system, and builds on established neural networks for performing OCR. Our experiments have shown that it is possible to perform OCR on 60 dpi scanned images of English text, which is a significantly lower resolution than the state-of-the-art, and we achieved a mean character level accuracy (CLA) of 99.7% and word level accuracy (WLA) of 98.9% across a set of about 1000 pages of 60 dpi text in a wide range of fonts. For 75 dpi images, the mean CLA was 99.9% and the mean WLA was 99.4% on the same sample of texts. We make our code and data (including a set of low-resolution images with their ground truths) publicly available as a benchmark for future work in this field.
