arXiv reaDer
TRIE ++:視覚的に豊富なドキュメントからのエンドツーエンドの情報抽出に向けて
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents
最近、視覚的に豊富なドキュメント(チケットや履歴書など)から情報を自動的に抽出することは、その広範な商業的価値のために、ホットで重要な研究トピックになっています。ほとんどの既存の方法は、このタスクを2つのサブパートに分割します。元のドキュメント画像からプレーンテキストを取得するためのテキスト読み取り部分と、主要なコンテンツを抽出するための情報抽出部分です。これらの方法は、2つの部分が高度に相関していることを無視して、主に2番目の改善に焦点を合わせています。このホワイトペーパーでは、視覚的に豊富なドキュメントからの統合されたエンドツーエンドの情報抽出フレームワークを提案します。このフレームワークでは、適切に設計されたマルチモーダルコンテキストブロックを介して、テキストの読み取りと情報抽出を相互に強化できます。具体的には、テキスト読み取り部分は、ビジュアル、テキスト、レイアウト機能などのマルチモーダル機能を提供します。マルチモーダルコンテキストブロックは、生成されたマルチモーダル機能と、事前にトレーニングされた言語モデルからの事前知識を融合して、より良いセマンティック表現を実現するために開発されました。情報抽出部分は、融合されたコンテキスト機能を使用してキーコンテンツを生成する役割を果たします。フレームワークは、エンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化を実現します。さらに、視覚的に豊富なドキュメントを定義し、レイアウトとテキストタイプの2つの次元にわたる4つのカテゴリにグループ化します。ドキュメントのカテゴリごとに、対応するベンチマーク、実験設定、およびこの研究領域に統一された評価基準がないという問題を解決するための強力なベースラインを提供または推奨します。 4種類のベンチマーク(固定レイアウトから可変レイアウト、完全構造化テキストから半非構造化テキストまで)に関する広範な実験が報告され、提案された方法の有効性が実証されています。データ、ソースコード、モデルが利用可能です。
Recently, automatically extracting information from visually rich documents (e.g., tickets and resumes) has become a hot and vital research topic due to its widespread commercial value. Most existing methods divide this task into two subparts: the text reading part for obtaining the plain text from the original document images and the information extraction part for extracting key contents. These methods mainly focus on improving the second, while neglecting that the two parts are highly correlated. This paper proposes a unified end-to-end information extraction framework from visually rich documents, where text reading and information extraction can reinforce each other via a well-designed multi-modal context block. Specifically, the text reading part provides multi-modal features like visual, textual and layout features. The multi-modal context block is developed to fuse the generated multi-modal features and even the prior knowledge from the pre-trained language model for better semantic representation. The information extraction part is responsible for generating key contents with the fused context features. The framework can be trained in an end-to-end trainable manner, achieving global optimization. What is more, we define and group visually rich documents into four categories across two dimensions, the layout and text type. For each document category, we provide or recommend the corresponding benchmarks, experimental settings and strong baselines for remedying the problem that this research area lacks the uniform evaluation standard. Extensive experiments on four kinds of benchmarks (from fixed layout to variable layout, from full-structured text to semi-unstructured text) are reported, demonstrating the proposed method's effectiveness. Data, source code and models are available.
updated: Thu Jul 14 2022 08:52:07 GMT+0000 (UTC)
published: Thu Jul 14 2022 08:52:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト