arXiv reaDer
LineCounter: Learning Handwritten Text Line Segmentation by Counting
手書きテキスト行セグメンテーション(HTLS)は、手書きテキスト認識などの多くの高レベルのドキュメント処理タスクにとって、低レベルですが重要なタスクです。多くの場合、深層学習におけるセマンティックセグメンテーションまたはオブジェクト検出の観点から定式化されます。ただし、どちらの処方にも重大な欠点があります。前者は隣接するセグメントを分割/マージする重い後処理を必要としますが、後者は密集したテキストや湾曲したテキストでは失敗する可能性があります。この論文では、HTLSの新しい行カウントの定式化を提案します。これには、すべてのピクセル位置で上からテキスト行の数をカウントすることが含まれます。この定式化は、特定のドキュメント画像のピクセルごとの行番号を直接予測するエンドツーエンドのHTLSソリューションを学習するのに役立ちます。さらに、ディープニューラルネットワーク(DNN)モデルLineCounterを提案して、LineCountingの定式化を通じてHTLSを実行します。 3つの公開データセット(ICDAR2013-HSC、HIT-MW、およびVML-AHTE)での広範な実験は、LineCounterが最先端のHTLSアプローチよりも優れていることを示しています。ソースコードはで入手できます。
Handwritten Text Line Segmentation (HTLS) is a low-level but important task for many higher-level document processing tasks like handwritten text recognition. It is often formulated in terms of semantic segmentation or object detection in deep learning. However, both formulations have serious shortcomings. The former requires heavy post-processing of splitting/merging adjacent segments, while the latter may fail on dense or curved texts. In this paper, we propose a novel Line Counting formulation for HTLS -- that involves counting the number of text lines from the top at every pixel location. This formulation helps learn an end-to-end HTLS solution that directly predicts per-pixel line number for a given document image. Furthermore, we propose a deep neural network (DNN) model LineCounter to perform HTLS through the Line Counting formulation. Our extensive experiments on the three public datasets (ICDAR2013-HSC, HIT-MW, and VML-AHTE) demonstrate that LineCounter outperforms state-of-the-art HTLS approaches. Source code is available at
updated: Mon May 24 2021 14:42:54 GMT+0000 (UTC)
published: Mon May 24 2021 14:42:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト