arXiv reaDer
古いドキュメントの行と単語の一致
Line and Word Matching in Old Documents
 この論文は、単語マッチングに基づいてインデックスを確立する問題に関係しています。本は可能な限りより良くデジタル化され、いくつかの前処理技術はすでに線の向きの補正といくつかのノイズ除去として適用されていると想定されています。ただし、2つの主な要因は、通常の光学式文字認識技術(OCR)を適用できないことの原因です。アンティークフォントの存在と、回復不能な元の時間劣化による多くの文字の劣化状態です。このホワイトペーパーでは、単語を特徴付ける行を見つけることを含む単語のセグメンテーションについて簡単に紹介します。単語照合のさまざまなアプローチと、それらを組み合わせて照合の候補単語の順序付きリストを取得する方法について説明した後。この議論は例によって説明されます。
This paper is concerned with the problem of establishing an index based on word matching. It is assumed that the book was digitised as better as possible and some pre-processing techniques were already applied as line orientation correction and some noise removal. However two main factor are responsible for being not possible to apply ordinary optical character recognition techniques (OCR): the presence of antique fonts and the degraded state of many characters due to unrecoverable original time degradation. In this paper we make a short introduction to word segmentation that involves finding the lines that characterise a word. After we discuss different approaches for word matching and how they can be combined to obtain an ordered list for candidate words for the matching. This discussion will be illustrated by examples.
updated: Fri Dec 17 2004 16:58:52 GMT+0000 (UTC)
published: Fri Dec 17 2004 16:58:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト