arXiv reaDer
Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs
コメンタリーは、重要な版や翻訳とともに、文学的およびテキスト的学問における出版の主要なジャンルの1つであり、1世紀にわたる伝統があります。それでも、何千ものデジタル化された歴史的解説の活用は、これまで、特にギリシャ語のテキストへの解説において、光学式文字認識(OCR)の質の低さによって妨げられていました。この論文では、歴史的な古典的解説のOCRに適した2つのパイプラインのパフォーマンスを評価します。私たちの結果は、Tesseract / OCR-Dが高密度のポリトニックギリシャ語テキスト(平均CER 7%対13%)の解説セクションで、Kraken + CiaconnaがTesseract / OCR-Dよりも大幅に低い文字エラー率(CER)に達することを示しています主にラテン文字で書かれたテキストセクションでは、Kraken + Ciaconnaよりもわずかに正確です(平均CER 8.2%対8.4%)。このペーパーの一部として、19番目の古典的な解説のOCRグラウンドトゥルースを含む小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシャ語の書体のトレーニングデータと事前トレーニング済みモデルの大規模なコレクションであるPogretraもリリースします。
Together with critical editions and translations, commentaries are one of the main genres of publication in literary and textual scholarship, and have a century-long tradition. Yet, the exploitation of thousands of digitized historical commentaries was hitherto hindered by the poor quality of Optical Character Recognition (OCR), especially on commentaries to Greek texts. In this paper, we evaluate the performances of two pipelines suitable for the OCR of historical classical commentaries. Our results show that Kraken + Ciaconna reaches a substantially lower character error rate (CER) than Tesseract/OCR-D on commentary sections with high density of polytonic Greek text (average CER 7% vs. 13%), while Tesseract/OCR-D is slightly more accurate than Kraken + Ciaconna on text sections written predominantly in Latin script (average CER 8.2% vs. 8.4%). As part of this paper, we also release GT4HistComment, a small dataset with OCR ground truth for 19th classical commentaries and Pogretra, a large collection of training data and pre-trained models for a wide variety of ancient Greek typefaces.
updated: Wed Oct 13 2021 16:01:16 GMT+0000 (UTC)
published: Wed Oct 13 2021 16:01:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト