一般的なドキュメントを理解するために、フォントサイズ、列レイアウト、一般に単語の配置などの情報には、下流のドキュメントインテリジェンスタスクを解決するために重要な意味情報が含まれる場合があります。 Katti et al。によるChargridに基づいた私たちの小説BERTgrid。 (2018)は、ベクトルを埋め込むコンテキスト化されたワードピースのグリッドとしてドキュメントを表し、それにより、その空間構造とセマンティクスを処理ニューラルネットワークからアクセス可能にします。コンテキスト化された埋め込みベクトルは、BERT言語モデルから取得されます。請求書からフィールドを抽出するためのセマンティックインスタンスセグメンテーションタスクで、BERTgridを完全な畳み込みネットワークと組み合わせて使用します。表形式の広告申込情報とドキュメントヘッダーフィールドの抽出でのパフォーマンスを示します。
For understanding generic documents, information like font sizes, column layout, and generally the positioning of words may carry semantic information that is crucial for solving a downstream document intelligence task. Our novel BERTgrid, which is based on Chargrid by Katti et al. (2018), represents a document as a grid of contextualized word piece embedding vectors, thereby making its spatial structure and semantics accessible to the processing neural network. The contextualized embedding vectors are retrieved from a BERT language model. We use BERTgrid in combination with a fully convolutional network on a semantic instance segmentation task for extracting fields from invoices. We demonstrate its performance on tabulated line item and document header field extraction.