arXiv reaDer
PARAGRAPH2GRAPH: レイアウト段落分析のための GNN ベースのフレームワーク
PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis
ドキュメント レイアウト分析には、さまざまなドメイン、言語、およびビジネス シナリオにわたる幅広い要件があります。ただし、現在の最先端のアルゴリズムのほとんどは言語に依存しており、特徴抽出のためにトランスフォーマー エンコーダーまたは BERT などの言語固有のテキスト エンコーダーに依存するアーキテクチャを使用しています。これらのアプローチは、入力シーケンスの長さの制約により、非常に長いドキュメントを処理する能力が制限されており、言語固有のトークナイザーと密接に結びついています。さらに、プライバシーを考慮したラベル付きの多言語ドキュメント データセットがないため、クロスランゲージ テキスト エンコーダーのトレーニングは困難な場合があります。さらに、一部のレイアウト タスクでは、異なるレイアウト コンポーネント間をオーバーラップせずに明確に分離する必要がありますが、これは画像セグメンテーション ベースのアルゴリズムでは実現が難しい場合があります。このホワイト ペーパーでは、言語に依存しないグラフ ニューラル ネットワーク (GNN) ベースのモデルである Paragraph2Graph を紹介します。このモデルは、厳密に分離されたビジネス シナリオに適応しながら、共通のドキュメント レイアウト データセットで競争力のある結果を達成します。わずか 1,995 万のパラメーターを備えたこのモデルは、産業用アプリケーション、特に多言語シナリオに適しています。
Document layout analysis has a wide range of requirements across various domains, languages, and business scenarios. However, most current state-of-the-art algorithms are language-dependent, with architectures that rely on transformer encoders or language-specific text encoders, such as BERT, for feature extraction. These approaches are limited in their ability to handle very long documents due to input sequence length constraints and are closely tied to language-specific tokenizers. Additionally, training a cross-language text encoder can be challenging due to the lack of labeled multilingual document datasets that consider privacy. Furthermore, some layout tasks require a clean separation between different layout components without overlap, which can be difficult for image segmentation-based algorithms to achieve. In this paper, we present Paragraph2Graph, a language-independent graph neural network (GNN)-based model that achieves competitive results on common document layout datasets while being adaptable to business scenarios with strict separation. With only 19.95 million parameters, our model is suitable for industrial applications, particularly in multi-language scenarios.
updated: Mon Apr 24 2023 03:54:48 GMT+0000 (UTC)
published: Mon Apr 24 2023 03:54:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト