arXiv reaDer
OCRコンテキストでの形態学的およびヒストグラムベースのテキスト行セグメンテーションの組み合わせ
Combining Morphological and Histogram based Text Line Segmentation in the OCR Context
テキスト行のセグメンテーションは、最新の光学式文字認識システムの前段階の1つです。このホワイトペーパーで提案されているアルゴリズムアプローチは、まさにこの目的のために設計されています。その主な特徴は、形態学的画像操作と水平ヒストグラム投影という2つの異なる手法の組み合わせです。この方法は、紙の劣化、テキストのぼやけ、ノイズの存在など、一般的に品質の問題を特徴とする歴史的なデータ収集に適用するために開発されました。そのため、問題のセグメンターは、特定の歴史的文書の堅牢な線境界ボックスへのアクセスを必要とする文化施設にとって特に興味深い可能性があります。低い計算コストによって結合される有望なセグメンテーション結果のために、アルゴリズムは、歴史的な新聞コレクションを再処理するイニシアチブのコンテキストで、ルクセンブルク国立図書館のOCRパイプラインに組み込まれました。このホワイトペーパーの一般的な貢献は、アプローチの概要を説明し、精度と速度の観点からゲインを評価し、使用されているオープンソースOCRソフトウェアにバンドルされているセグメンテーションアルゴリズムと比較することです。
Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or presence of noise. For that reason, the segmenter in question could be of particular interest for cultural institutions, that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.
updated: Fri Sep 10 2021 10:26:56 GMT+0000 (UTC)
published: Tue Mar 16 2021 09:06:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト