arXiv reaDer
EraseNet: 監視されたドキュメント クリーニングのための反復残留ネットワーク
EraseNet: A Recurrent Residual Network for Supervised Document Cleaning
ドキュメントのノイズ除去は、コンピューター ビジョンで最も困難なタスクの 1 つと考えられています。まだデジタル化されていない文書が何百万も存在しますが、自然要因や人為的要因による文書の劣化などの問題により、この作業は非常に困難になっています。このホワイト ペーパーでは、新しい完全畳み込み自動エンコーダ アーキテクチャを使用してダーティ ドキュメントをクリーニングするための監視付きアプローチを紹介します。このホワイト ペーパーでは、ドキュメントの経年劣化による変形、ゼロックスされたページに残った折り目、ランダムな黒いパッチ、かすかに見えるテキストなどの不一致のあるドキュメントの復元、および画像の品質を向上させて光学的特性を改善することに焦点を当てています。認識システム (OCR) のパフォーマンス。スキャンされたドキュメントからノイズを除去することは、ドキュメントの前の非常に重要なステップです。このノイズは、OCR システムのパフォーマンスに深刻な影響を与える可能性があるためです。この論文の実験は、モデルがさまざまな通常のノイズと異常なノイズを学習し、それらを効率的に修正できるため、有望な結果を示しています。
Document denoising is considered one of the most challenging tasks in computer vision. There exist millions of documents that are still to be digitized, but problems like document degradation due to natural and man-made factors make this task very difficult. This paper introduces a supervised approach for cleaning dirty documents using a new fully convolutional auto-encoder architecture. This paper focuses on restoring documents with discrepancies like deformities caused due to aging of a document, creases left on the pages that were xeroxed, random black patches, lightly visible text, etc., and also improving the quality of the image for better optical character recognition system (OCR) performance. Removing noise from scanned documents is a very important step before the documents as this noise can severely affect the performance of an OCR system. The experiments in this paper have shown promising results as the model is able to learn a variety of ordinary as well as unusual noises and rectify them efficiently.
updated: Mon Oct 03 2022 04:23:25 GMT+0000 (UTC)
published: Mon Oct 03 2022 04:23:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト