arXiv reaDer
フォームエンティティリンクのテキスト分類モデル
Text Classification Models for Form Entity Linking
フォームは、管理、医療、財務、保険など、さまざまな分野で使用される幅広いタイプのテンプレートベースのドキュメントです。これらの文書に含まれる情報の自動抽出は、日常的に生成されるフォームの量が増加しているため、非常に要求されています。ただし、フォームエンティティの場所が異なるテンプレートは非常に多様であり、スキャンされたドキュメントの品質が高いため、スキャンされたフォームを操作する場合、これは簡単な作業ではありません。このコンテキストでは、すべてのフォームで共有される機能があります。これらのフォームには、ヘッダーや画像などの他のエンティティとともに、キーと値(またはラベルと値)のペアとして構築された相互リンクされたエンティティのコレクションが含まれます。この作業では、画像処理技術とBERTアーキテクチャに基づくテキスト分類モデルを組み合わせることにより、フォームでのエンティティリンキングの問題に取り組みました。このアプローチは、FUNSDデータセットのF1スコアが0.80で、最新の結果を達成します。これは、以前の最良の方法に比べて5%の改善です。このプロジェクトのコードは、https://github.com/mavillot/FUNSD-Entity-Linkingで入手できます。
Forms are a widespread type of template-based document used in a great variety of fields including, among others, administration, medicine, finance, or insurance. The automatic extraction of the information included in these documents is greatly demanded due to the increasing volume of forms that are generated in a daily basis. However, this is not a straightforward task when working with scanned forms because of the great diversity of templates with different location of form entities, and the quality of the scanned documents. In this context, there is a feature that is shared by all forms: they contain a collection of interlinked entities built as key-value (or label-value) pairs, together with other entities such as headers or images. In this work, we have tacked the problem of entity linking in forms by combining image processing techniques and a text classification model based on the BERT architecture. This approach achieves state-of-the-art results with a F1-score of 0.80 on the FUNSD dataset, a 5% improvement regarding the best previous method. The code of this project is available at https://github.com/mavillot/FUNSD-Entity-Linking.
updated: Tue Dec 14 2021 14:59:44 GMT+0000 (UTC)
published: Tue Dec 14 2021 14:59:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト