arXiv reaDer
ディープビジュアルテンプレートなしのフォーム解析
Deep Visual Template-Free Form Parsing
  フォーム画像からの情報をテンプレートなしで自動的に抽出することは、フォームレイアウトがさまざまであるため困難です。これは、ノイズと劣化のために、歴史的な形式ではさらに困難です。抽出プロセスの重要な部分は、入力テキストを事前に印刷されたラベルに関連付けることです。事前に印刷されたテキストと入力テキスト/手書きを検出し、それらの間のペアワイズ関係を予測するための、学習済みのテンプレートを使用しないソリューションを提供します。この問題に対する以前のアプローチは、きれいな画像と明確なレイアウトに焦点を合わせていましたが、ノイズの多い、劣化した、さまざまなフォーム画像の領域で私たちのアプローチが効果的であることを示します。アプローチのトレーニングと検証のために、履歴フォーム画像の新しいデータセット(1800年代後半、1900年代初期)を紹介します。この方法では、畳み込みネットワークを使用して、事前に印刷されたテキストと入力テキスト行を検出します。検出ネットワークの機能をプールして、言語に依存しない方法で可能な関係を分類します。提案したペアリング方法がヒューリスティックルールよりも優れていること、および視覚的特徴が高い精度を得るために重要であることを示します。
Automatic, template-free extraction of information from form images is challenging due to the variety of form layouts. This is even more challenging for historical forms due to noise and degradation. A crucial part of the extraction process is associating input text with pre-printed labels. We present a learned, template-free solution to detecting pre-printed text and input text/handwriting and predicting pair-wise relationships between them. While previous approaches to this problem have been focused on clean images and clear layouts, we show our approach is effective in the domain of noisy, degraded, and varied form images. We introduce a new dataset of historical form images (late 1800s, early 1900s) for training and validating our approach. Our method uses a convolutional network to detect pre-printed text and input text lines. We pool features from the detection network to classify possible relationships in a language-agnostic way. We show that our proposed pairing method outperforms heuristic rules and that visual features are critical to obtaining high accuracy.
updated: Wed Sep 18 2019 21:58:56 GMT+0000 (UTC)
published: Thu Sep 05 2019 18:00:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト