デジタル化された手書き文書から情報を抽出するための Transformer ベースのアプローチを提案します。私たちのアプローチは、これまで別々のモデルで実行されていたさまざまなステップ (特徴抽出、手書き認識、固有表現認識) を 1 つのモデルに結合します。この統合されたアプローチを、固有表現認識の前に手書き認識を実行する従来の 2 段階の方法と比較し、行、段落、およびページのさまざまなレベルで結果を提示します。私たちの実験では、アテンション ベースのモデルは、事前のセグメンテーション ステップを必要としないため、ページ全体に適用した場合に特に興味深いことが示されています。最後に、キーと値の注釈から学習できることを示します。重要な単語とそれに対応する名前付きエンティティのリストです。モデルを 3 つのパブリック データベース (IAM、ESPOSALLES、POPP) で最先端の方法と比較し、3 つのデータセットすべてで以前のパフォーマンスを上回りました。
We propose a Transformer-based approach for information extraction from digitized handwritten documents. Our approach combines, in a single model, the different steps that were so far performed by separate models: feature extraction, handwriting recognition and named entity recognition. We compare this integrated approach with traditional two-stage methods that perform handwriting recognition before named entity recognition, and present results at different levels: line, paragraph, and page. Our experiments show that attention-based models are especially interesting when applied on full pages, as they do not require any prior segmentation step. Finally, we show that they are able to learn from key-value annotations: a list of important words with their corresponding named entities. We compare our models to state-of-the-art methods on three public databases (IAM, ESPOSALLES, and POPP) and outperform previous performances on all three datasets.