arXiv reaDer
TRUST: 分割ベースのトランスフォーマーを使用した、正確でエンド ツー エンドのテーブル構造レコグナイザー
TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers
表構造の認識は、文書画像解析ドメインの重要な部分です。その難しさは、各セルの物理座標と論理インデックスを同時に解析する必要があることにあります。ただし、既存の方法では、特に表の分割線がぼやけたり傾いたりしている場合、これらの目標を両方達成することは困難です。この論文では、TRUSTと呼ばれる、正確でエンドツーエンドの変換ベースのテーブル構造認識方法を提案します。トランスフォーマーは、グローバルな計算、完全なメモリ、および並列計算により、テーブル構造の認識に適しています。新しい Transformer ベースのクエリベースの分割モジュールと Vertex ベースのマージ モジュールを導入することで、テーブル構造認識の問題は、多方向テーブルの行/列分割とテーブル グリッドのマージという 2 つの共同最適化サブタスクに分離されます。クエリベースの分割モジュールは、Transformer ネットワークを介して長い依存関係から強力なコンテキスト情報を学習し、多方向のテーブルの行/列セパレーターを正確に予測し、それに応じてテーブルの基本グリッドを取得します。頂点ベースのマージ モジュールは、隣接する基本グリッド間のローカル コンテキスト情報を集約することができ、同じスパニング セルに属する基本グリッドを正確にマージする機能を提供します。 PubTabNet や SynthTable を含むいくつかの一般的なベンチマークで実験を行い、私たちの方法は新しい最先端の結果を達成します。特に、TRUST は PubTabNet で 10 FPS で実行され、以前の方法を大幅に上回っています。
Table structure recognition is a crucial part of document image analysis domain. Its difficulty lies in the need to parse the physical coordinates and logical indices of each cell at the same time. However, the existing methods are difficult to achieve both these goals, especially when the table splitting lines are blurred or tilted. In this paper, we propose an accurate and end-to-end transformer-based table structure recognition method, referred to as TRUST. Transformers are suitable for table structure recognition because of their global computations, perfect memory, and parallel computation. By introducing novel Transformer-based Query-based Splitting Module and Vertex-based Merging Module, the table structure recognition problem is decoupled into two joint optimization sub-tasks: multi-oriented table row/column splitting and table grid merging. The Query-based Splitting Module learns strong context information from long dependencies via Transformer networks, accurately predicts the multi-oriented table row/column separators, and obtains the basic grids of the table accordingly. The Vertex-based Merging Module is capable of aggregating local contextual information between adjacent basic grids, providing the ability to merge basic girds that belong to the same spanning cell accurately. We conduct experiments on several popular benchmarks including PubTabNet and SynthTable, our method achieves new state-of-the-art results. In particular, TRUST runs at 10 FPS on PubTabNet, surpassing the previous methods by a large margin.
updated: Wed Aug 31 2022 08:33:36 GMT+0000 (UTC)
published: Wed Aug 31 2022 08:33:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト