arXiv reaDer
DocTr: ドキュメント内の構造化情報を抽出するためのドキュメント トランスフォーマー
DocTr: Document Transformer for Structured Information Extraction in Documents
視覚的に豊富なドキュメントからの構造化情報抽出 (SIE) のための新しい定式化を紹介します。これは、入力テキストの正しい順序に過度に依存しているか、複雑なグラフのデコードに苦労している、既存の IOB タグ付けまたはグラフベースの定式化の制限に対処することを目的としています。代わりに、ビジョン内のアンカーベースのオブジェクト検出器によって動機付けられ、エンティティをアンカー ワードと境界ボックスとして表し、エンティティのリンクをアンカー ワード間の関連付けとして表します。これはテキストの順序付けに対してより堅牢であり、エンティティのリンクのためのコンパクトなグラフを維持します。この定式化により、1) 視覚的に豊富なドキュメント内のエンティティ境界ボックスを検出して関連付けることを目的とした DOCument TRansformer (DocTr)、および 2) 言語のコンテキストでエンティティ検出を学習するのに役立つ単純な事前トレーニング戦略を導入することができます。 3 つの SIE ベンチマークの評価では、提案された定式化の有効性が示されており、全体的なアプローチは既存のソリューションを上回っています。
We present a new formulation for structured information extraction (SIE) from visually rich documents. It aims to address the limitations of existing IOB tagging or graph-based formulations, which are either overly reliant on the correct ordering of input text or struggle with decoding a complex graph. Instead, motivated by anchor-based object detectors in vision, we represent an entity as an anchor word and a bounding box, and represent entity linking as the association between anchor words. This is more robust to text ordering, and maintains a compact graph for entity linking. The formulation motivates us to introduce 1) a DOCument TRansformer (DocTr) that aims at detecting and associating entity bounding boxes in visually rich documents, and 2) a simple pre-training strategy that helps learn entity detection in the context of language. Evaluations on three SIE benchmarks show the effectiveness of the proposed formulation, and the overall approach outperforms existing solutions.
updated: Sun Jul 16 2023 02:59:30 GMT+0000 (UTC)
published: Sun Jul 16 2023 02:59:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト