arXiv reaDer
Marginalia と機械学習: Marginalia Collections の手書きテキスト認識
Marginalia and machine learning: Handwritten text recognition for Marginalia Collections
歴史的文書コレクションのデジタル化に対する差し迫った必要性は、自動手書きテキスト認識 (HTR) のためのコンピュータ化された画像処理方法の設計に強い関心をもたらしました。手書きのテキストは、書き方、言語、スクリプトが異なるため、変動性が高くなります。正確で堅牢な HTR システムのトレーニングには、十分な量の注釈付きマルチライター テキストが利用できないため、データ効率の高いアプローチが必要です。進行中のプロジェクト「Marginalia and Machine Learning」のケース スタディをここで紹介します。このプロジェクトでは、手書きの余白テキスト、つまり余白に書かれたテキストや手書きのメモの自動検出と認識に焦点を当てています。より高速な R-CNN ネットワークが余白の検出に使用され、 AttentionHTR は単語認識に使用されます. データは、ウプサラ大学図書館で見つかった初期の本のコレクション (印刷されたもの) から取得され、手書きのマージンテキストが含まれています. ソースコードと事前トレーニング済みのモデルは、https://github.com/ektavats/Project-Marginalia で入手できます.
The pressing need for digitization of historical document collections has led to a strong interest in designing computerised image processing methods for automatic handwritten text recognition (HTR). Handwritten text possesses high variability due to different writing styles, languages and scripts. Training an accurate and robust HTR system calls for data-efficient approaches due to the unavailability of sufficient amounts of annotated multi-writer text. A case study on an ongoing project ``Marginalia and Machine Learning" is presented here that focuses on automatic detection and recognition of handwritten marginalia texts i.e., text written in margins or handwritten notes. Faster R-CNN network is used for detection of marginalia and AttentionHTR is used for word recognition. The data comes from early book collections (printed) found in the Uppsala University Library, with handwritten marginalia texts. Source code and pretrained models are available at https://github.com/ektavats/Project-Marginalia.
updated: Fri Mar 10 2023 14:00:53 GMT+0000 (UTC)
published: Fri Mar 10 2023 14:00:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト