arXiv reaDer
UTRNet: 印刷ドキュメント内の高解像度ウルドゥー語テキスト認識
UTRNet: High-Resolution Urdu Text Recognition In Printed Documents
この論文では、高解像度のマルチスケール意味論的特徴抽出を使用して、印刷されたウルドゥー語テキスト認識の課題に対処する新しいアプローチを提案します。私たちが提案する UTRNet アーキテクチャ、ハイブリッド CNN-RNN モデルは、ベンチマーク データセットで最先端のパフォーマンスを実証します。ウルドゥー語文字の複雑さと十分な注釈付き実世界データの不足を一般化するのに苦労している以前の研究の限界に対処するために、11,000 を超える大規模な注釈付き実世界データセットである UTRSet-Real を導入しました。ラインと UTRSet-Synth は、現実世界によく似た 20,000 ラインの合成データセットであり、既存の IIITH データセットのグラウンド トゥルースを修正して、将来の研究のためにより信頼できるリソースにしました。また、スキャンされた文書内のウルドゥー語テキスト行検出用のベンチマーク データセットである UrduDoc も提供しています。さらに、UTRNet とテキスト検出モデルを統合することにより、印刷ドキュメントからエンドツーエンドのウルドゥー語 OCR を実行するオンライン ツールを開発しました。私たちの取り組みは、ウルドゥー語 OCR の現在の限界に対処するだけでなく、この分野における将来の研究への道を切り開き、ウルドゥー語 OCR テクノロジーの継続的な進歩を促進します。ソース コード、データセット、アノテーション、トレーニング済みモデル、オンライン ツールを含むプロジェクト ページは、abdur75648.github.io/UTRNet から入手できます。
In this paper, we propose a novel approach to address the challenges of printed Urdu text recognition using high-resolution, multi-scale semantic feature extraction. Our proposed UTRNet architecture, a hybrid CNN-RNN model, demonstrates state-of-the-art performance on benchmark datasets. To address the limitations of previous works, which struggle to generalize to the intricacies of the Urdu script and the lack of sufficient annotated real-world data, we have introduced the UTRSet-Real, a large-scale annotated real-world dataset comprising over 11,000 lines and UTRSet-Synth, a synthetic dataset with 20,000 lines closely resembling real-world and made corrections to the ground truth of the existing IIITH dataset, making it a more reliable resource for future research. We also provide UrduDoc, a benchmark dataset for Urdu text line detection in scanned documents. Additionally, we have developed an online tool for end-to-end Urdu OCR from printed documents by integrating UTRNet with a text detection model. Our work not only addresses the current limitations of Urdu OCR but also paves the way for future research in this area and facilitates the continued advancement of Urdu OCR technology. The project page with source code, datasets, annotations, trained models, and online tool is available at abdur75648.github.io/UTRNet.
updated: Tue Jun 27 2023 20:09:56 GMT+0000 (UTC)
published: Tue Jun 27 2023 20:09:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト