arXiv reaDer
HANA:オフライン手書きテキスト認識用の手書きNAmeデータベース
HANA: A HAndwritten NAme Database for Offline Handwritten Text Recognition
通常、AIベースの文字起こしモデルと組み合わせて、履歴データセット間で個人をリンクする方法が急速に開発されています。おそらく、リンクするための唯一の最も重要な識別子は個人名です。ただし、個人名は列挙や文字起こしのエラーが発生しやすく、最新のリンク方法はそのような課題を処理するように設計されていますが、これらのエラーの原因は重要であり、最小限に抑える必要があります。この目的のために、改善された転写方法と大規模なデータベースは重要なコンポーネントです。このホワイトペーパーでは、330万を超える名前で構成される新しく構築された大規模データベースであるHANAについて説明し、ドキュメントを提供します。データベースには10万5000を超える固有の名前が含まれており、合計で110万を超える個人名の画像が含まれています。これは、学習を他の設定に移すのに役立ちます。ここでは3つの例を示し、デンマークと米国の国勢調査データの両方で大幅に改善された文字起こしの精度を取得します。さらに、スキャンされたドキュメントから個人名を自動的に転記するディープラーニングモデルのベンチマーク結果を示します。より挑戦的な大規模データベースを公開することにより、手書きテキスト認識のためのより洗練された、正確で堅牢なモデルを育成したいと考えています。
Methods for linking individuals across historical data sets, typically in combination with AI based transcription models, are developing rapidly. Probably the single most important identifier for linking is personal names. However, personal names are prone to enumeration and transcription errors and although modern linking methods are designed to handle such challenges, these sources of errors are critical and should be minimized. For this purpose, improved transcription methods and large-scale databases are crucial components. This paper describes and provides documentation for HANA, a newly constructed large-scale database which consists of more than 3.3 million names. The database contain more than 105 thousand unique names with a total of more than 1.1 million images of personal names, which proves useful for transfer learning to other settings. We provide three examples hereof, obtaining significantly improved transcription accuracy on both Danish and US census data. In addition, we present benchmark results for deep learning models automatically transcribing the personal names from the scanned documents. Through making more challenging large-scale databases publicly available we hope to foster more sophisticated, accurate, and robust models for handwritten text recognition.
updated: Thu Mar 10 2022 07:27:25 GMT+0000 (UTC)
published: Fri Jan 22 2021 16:23:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト