arXiv reaDer
重要な情報抽出のための空間デュアルモダリティグラフ推論
Spatial Dual-Modality Graph Reasoning for Key Information Extraction
ドキュメント画像からの重要な情報の抽出は、オフィスオートメーションにおいて最も重要です。従来のテンプレートマッチングベースのアプローチは、目に見えないテンプレートの画像を文書化するためにうまく一般化することができず、テキスト認識エラーに対して堅牢ではありません。この論文では、非構造化ドキュメント画像から重要な情報を抽出するためのエンドツーエンドの空間デュアルモダリティグラフ推論法(SDMG-R)を提案します。ドキュメント画像をデュアルモダリティグラフとしてモデル化します。ノードのノードは検出されたテキスト領域の視覚的特徴とテキストの特徴の両方をエンコードし、エッジは隣接するテキスト領域間の空間的関係を表します。重要な情報の抽出は、グラフのエッジに沿ってメッセージを繰り返し伝播し、グラフノードのカテゴリを推論することによって解決されます。提案された方法を丸く評価し、将来の研究を後押しするために、WildReceiptという名前の新しいデータセットをリリースします。このデータセットは、野生の目に見えないテンプレートのドキュメント画像からの重要な情報抽出の評価用に収集され、注釈が付けられています。 25の主要な情報カテゴリ、合計約69000のテキストボックスが含まれており、既存の公開データセットの約2倍の大きさです。広範な実験により、視覚的特徴、テキスト的特徴、空間的関係を含むすべての情報が重要な情報抽出に役立つことが検証されています。 SDMG-Rは、目に見えないテンプレートのドキュメントイメージから重要な情報を効果的に抽出し、最近人気のあるベンチマークSROIEとWildReceiptで新しい最先端の結果を取得できることが示されています。コードとデータセットは一般公開されます。
Key information extraction from document images is of paramount importance in office automation. Conventional template matching based approaches fail to generalize well to document images of unseen templates, and are not robust against text recognition errors. In this paper, we propose an end-to-end Spatial Dual-Modality Graph Reasoning method (SDMG-R) to extract key information from unstructured document images. We model document images as dual-modality graphs, nodes of which encode both the visual and textual features of detected text regions, and edges of which represent the spatial relations between neighboring text regions. The key information extraction is solved by iteratively propagating messages along graph edges and reasoning the categories of graph nodes. In order to roundly evaluate our proposed method as well as boost the future research, we release a new dataset named WildReceipt, which is collected and annotated tailored for the evaluation of key information extraction from document images of unseen templates in the wild. It contains 25 key information categories, a total of about 69000 text boxes, and is about 2 times larger than the existing public datasets. Extensive experiments validate that all information including visual features, textual features and spatial relations can benefit key information extraction. It has been shown that SDMG-R can effectively extract key information from document images of unseen templates, and obtain new state-of-the-art results on the recent popular benchmark SROIE and our WildReceipt. Our code and dataset will be publicly released.
updated: Fri Mar 26 2021 13:46:00 GMT+0000 (UTC)
published: Fri Mar 26 2021 13:46:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト