arXiv reaDer
文字レベルの埋め込みとマルチステージアテンションU-Netによるエンドツーエンドの情報抽出
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net
請求書、領収書、銀行振込などの大量の非構造化ドキュメントをデジタル化する必要があるため、ドキュメント画像からの情報抽出は最近多くの注目を集めています。ドキュメントの 2D 文字グリッド埋め込み、つまり Multi-Stage Attentional U-Net でのエンド情報抽出。 2D 要素間のテキストと空間の関係を効果的にキャプチャするために、私たちのモデルは、自己注意メカニズムとボックス畳み込みの効率的な使用と組み合わせて、特殊な多段エンコーダーデコーダー設計を活用しています。さまざまなデータセットでの実験結果は、モデルがベースライン U-Net アーキテクチャよりも大幅に優れている一方で、使用するパラメーターが 40% 少ないことを示しています。さらに、誤った OCR と限られたトレーニング データのシナリオでベースラインを大幅に改善したため、実際のアプリケーションで実用的になります。
Information extraction from document images has received a lot of attention recently, due to the need for digitizing a large volume of unstructured documents such as invoices, receipts, bank transfers, etc. In this paper, we propose a novel deep learning architecture for end-to-end information extraction on the 2D character-grid embedding of the document, namely the Multi-Stage Attentional U-Net. To effectively capture the textual and spatial relations between 2D elements, our model leverages a specialized multi-stage encoder-decoders design, in conjunction with efficient uses of the self-attention mechanism and the box convolution. Experimental results on different datasets show that our model outperforms the baseline U-Net architecture by a large margin while using 40% fewer parameters. Moreover, it also significantly improved the baseline in erroneous OCR and limited training data scenario, thus becomes practical for real-world applications.
updated: Thu Sep 09 2021 07:36:35 GMT+0000 (UTC)
published: Wed Jun 02 2021 05:42:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト