BERTgridのような最近のグリッドベースのドキュメント表現では、ドキュメントのテキスト情報とレイアウト情報を2Dフィーチャマップで同時にエンコードできるため、最先端の画像セグメンテーションやオブジェクト検出モデルを直接活用してキーを抽出できます。ドキュメントからの情報。ただし、このような方法は、LayoutLMやPICKなどの最先端のシーケンスベースおよびグラフベースの方法に匹敵するパフォーマンスをまだ達成していません。この論文では、BERTgridをCNNモデルの中間層に連結することにより、新しいマルチモーダルバックボーンネットワークを提案します。ここで、CNNの入力はドキュメント画像であり、BERTgridは単語埋め込みのグリッドであり、より強力なものを生成します。 ViBERTgridという名前のグリッドベースのドキュメント表現。 BERTgridとは異なり、マルチモーダルバックボーンネットワークのBERTとCNNのパラメーターは共同でトレーニングされます。私たちの実験結果は、この共同トレーニング戦略がViBERTgridの表現能力を大幅に向上させることを示しています。その結果、ViBERTgridベースの重要な情報抽出アプローチにより、実際のデータセットで最先端のパフォーマンスが実現しました。
Recent grid-based document representations like BERTgrid allow the simultaneous encoding of the textual and layout information of a document in a 2D feature map so that state-of-the-art image segmentation and/or object detection models can be straightforwardly leveraged to extract key information from documents. However, such methods have not achieved comparable performance to state-of-the-art sequence- and graph-based methods such as LayoutLM and PICK yet. In this paper, we propose a new multi-modal backbone network by concatenating a BERTgrid to an intermediate layer of a CNN model, where the input of CNN is a document image and the BERTgrid is a grid of word embeddings, to generate a more powerful grid-based document representation, named ViBERTgrid. Unlike BERTgrid, the parameters of BERT and CNN in our multimodal backbone network are trained jointly. Our experimental results demonstrate that this joint training strategy improves significantly the representation ability of ViBERTgrid. Consequently, our ViBERTgrid-based key information extraction approach has achieved state-of-the-art performance on real-world datasets.