arXiv reaDer
異種ドキュメント画像からのロバストなテーブル検出と構造認識
Robust Table Detection and Structure Recognition from Heterogeneous Document Images
テーブルの境界を検出し、異種のドキュメント画像からテーブルのセルラー構造を再構築するために、RobusTabNetという名前の新しいテーブル検出および構造認識アプローチを導入します。テーブル検出については、CornerNetを新しいリージョン提案ネットワークとして使用して、Faster R-CNNの高品質のテーブル提案を生成することを提案します。これにより、テーブル検出のFasterR-CNNのローカリゼーション精度が大幅に向上しました。その結果、私たちのテーブル検出アプローチは、軽量のResNet-18バックボーンネットワークのみを使用することにより、3つのパブリックテーブル検出ベンチマーク、つまりcTDaR TrackA、PubLayNet、およびIIIT-AR-13Kで最先端のパフォーマンスを実現します。さらに、新しい分割およびマージベースのテーブル構造認識アプローチを提案します。このアプローチでは、新しい空間CNNベースの分離線予測モジュールを提案して、検出された各テーブルをセルのグリッドに分割し、グリッドCNNベースのセルマージモジュールを提案します。スパニングセルを回復するために適用されます。空間CNNモジュールは、テーブルイメージ全体にコンテキスト情報を効果的に伝播できるため、テーブル構造認識機能は、大きな空白スペースや幾何学的に歪んだ(湾曲した)テーブルを含むテーブルを確実に認識できます。これらの2つの手法のおかげで、テーブル構造認識アプローチは、SciTSR、PubTabNet、cTDaRTrackBを含む3つの公開ベンチマークで最先端のパフォーマンスを実現します。さらに、複雑な構造、大きな空白スペース、空のセルまたはスパンセル、さらにはより困難な社内データセットで幾何学的に歪んだテーブルや湾曲したテーブルを認識する際のアプローチの利点をさらに示しました。
We introduce a new table detection and structure recognition approach named RobusTabNet to detect the boundaries of tables and reconstruct the cellular structure of the table from heterogeneous document images. For table detection, we propose to use CornerNet as a new region proposal network to generate higher quality table proposals for Faster R-CNN, which has significantly improved the localization accuracy of Faster R-CNN for table detection. Consequently, our table detection approach achieves state-of-the-art performance on three public table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by only using a lightweight ResNet-18 backbone network. Furthermore, we propose a new split-and-merge based table structure recognition approach, in which a novel spatial CNN based separation line prediction module is proposed to split each detected table into a grid of cells, and a Grid CNN based cell merging module is applied to recover the spanning cells. As the spatial CNN module can effectively propagate contextual information across the whole table image, our table structure recognizer can robustly recognize tables with large blank spaces and geometrically distorted (even curved) tables. Thanks to these two techniques, our table structure recognition approach achieves state-of-the-art performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR TrackB. Moreover, we have further demonstrated the advantages of our approach in recognizing tables with complex structures, large blank spaces, empty or spanning cells as well as geometrically distorted or even curved tables on a more challenging in-house dataset.
updated: Thu Mar 17 2022 03:35:12 GMT+0000 (UTC)
published: Thu Mar 17 2022 03:35:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト