arXiv reaDer
bbOCR: ベンガル語ドキュメント用のオープンソース マルチドメイン OCR パイプライン
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents
多数の光学式文字認識 (OCR) ツールが存在するにもかかわらず、包括的なオープンソース システムが不足しているため、ベンガル語を含むリソースの少ないさまざまな言語での文書デジタル化の進歩が妨げられています。リソースの少ない言語、特にアルファ音節表記システムを使用する言語では、単語レベルの OCR、文書レイアウト抽出、歪み補正などのさまざまな文書 OCR コンポーネント用の大規模なデータセットが不足しているという問題があります。これらは、高リソース言語の個別のモジュールとして利用できます。このペーパーでは、Bengali.AI-BRACU-OCR (bbOCR) を紹介します。これは、新しいベンガル語テキスト認識モデルと 2 つの新しい合成データセットを活用する、ベンガル語文書を構造化された検索可能なデジタル化形式に再構築できるオープンソースのスケーラブルな文書 OCR システムです。私たちは広範なコンポーネント レベルおよびシステム レベルの評価を提示します。両方とも、新しい多様な評価データセットと包括的な評価指標を使用します。私たちの広範な評価により、私たちが提案したソリューションが現在の最先端のベンガル語 OCR システムよりも好ましいことがわかりました。ソース コードとデータセットは、https://bengaliai.github.io/bbocr から入手できます。
Despite the existence of numerous Optical Character Recognition (OCR) tools, the lack of comprehensive open-source systems hampers the progress of document digitization in various low resource languages, including Bengali. Low-resource languages, especially those with an alphasyllabary writing system, suffer from the lack of large-scale datasets for various document OCR components such as word-level OCR, document layout extraction, and distortion correction; which are available as individual modules in high-resource languages. In this paper, we introduce Bengali.AI-BRACU-OCR (bbOCR): an open-source scalable document OCR system that can reconstruct Bengali documents into a structured searchable digitized format that leverages a novel Bengali text recognition model and two novel synthetic datasets. We present extensive component-level and system-level evaluation: both use a novel diversified evaluation dataset and comprehensive evaluation metrics. Our extensive evaluation suggests that our proposed solution is preferable over the current state-of-the-art Bengali OCR systems. The source codes and datasets are available here: https://bengaliai.github.io/bbocr.
updated: Mon Aug 21 2023 11:35:28 GMT+0000 (UTC)
published: Mon Aug 21 2023 11:35:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト