arXiv reaDer
歴史的文書における共同手書きと固有表現抽出のためのTransformerベースのアプローチ
Transformer-Based Approach for Joint Handwriting and Named Entity Recognition in Historical documents
手書き文書で指定されたエンティティによって実行される関連情報の抽出は、依然として困難な作業です。通常、テキストの転記と固有表現抽出に別々の後続タスクとして直面する従来の情報抽出アプローチとは異なり、このペーパーでは、これら2つのタスクを共同で実行するためのエンドツーエンドのトランスベースのアプローチを提案します。提案されたアプローチは段落レベルで機能し、2つの主な利点があります。まず、モデルがラインセグメンテーションによる回復不能な初期エラーを回避できるようにします。次に、モデルがより大きな2次元コンテキスト情報を利用してセマンティックカテゴリを識別し、より高い最終予測精度に到達できるようにします。また、パフォーマンスへの影響を示すためにさまざまなトレーニングシナリオを調査し、2段階の学習戦略によってモデルがより高い最終予測精度に到達できることを示します。私たちが知る限り、この作業は、手書き文書での固有表現抽出にトランスフォーマーネットワークを採用する最初のアプローチを示しています。提案された手法では辞書、言語モデリング、または後処理を使用していませんが、Esposallesデータベースを使用して、ICDAR2017情報抽出コンペティションで新しい最先端のパフォーマンスを達成します。
The extraction of relevant information carried out by named entities in handwriting documents is still a challenging task. Unlike traditional information extraction approaches that usually face text transcription and named entity recognition as separate subsequent tasks, we propose in this paper an end-to-end transformer-based approach to jointly perform these two tasks. The proposed approach operates at the paragraph level, which brings two main benefits. First, it allows the model to avoid unrecoverable early errors due to line segmentation. Second, it allows the model to exploit larger bi-dimensional context information to identify the semantic categories, reaching a higher final prediction accuracy. We also explore different training scenarios to show their effect on the performance and we demonstrate that a two-stage learning strategy can make the model reach a higher final prediction accuracy. As far as we know, this work presents the first approach that adopts the transformer networks for named entity recognition in handwritten documents. We achieve the new state-of-the-art performance in the ICDAR 2017 Information Extraction competition using the Esposalles database, for the complete task, even though the proposed technique does not use any dictionaries, language modeling, or post-processing.
updated: Wed Dec 08 2021 09:26:21 GMT+0000 (UTC)
published: Wed Dec 08 2021 09:26:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト