RobusTabNet という名前の新しいテーブル検出および構造認識アプローチを導入して、テーブルの境界を検出し、異種ドキュメント画像から各テーブルの細胞構造を再構築します。テーブル検出については、CornerNet を新しい領域提案ネットワークとして使用して、Faster R-CNN のより高品質のテーブル提案を生成することを提案します。これにより、テーブル検出のための Faster R-CNN のローカリゼーション精度が大幅に向上しました。その結果、テーブル検出アプローチは、軽量の ResNet-18 バックボーン ネットワークのみを使用することで、cTDaR TrackA、PubLayNet、および IIIT-AR-13K という 3 つのパブリック テーブル検出ベンチマークで最先端のパフォーマンスを実現します。さらに、新しい分割結合ベースのテーブル構造認識アプローチを提案します。このアプローチでは、検出された各テーブルをセルのグリッドに分割するために、新しい空間 CNN ベースの分離線予測モジュールが提案され、グリッド CNN ベースのセル結合モジュールが提案されます。スパニング セルを回復するために適用されます。空間 CNN モジュールは、テーブル画像全体にコンテキスト情報を効果的に伝達できるため、テーブル構造認識エンジンは、大きな空白スペースと幾何学的に歪んだ (湾曲した) テーブルを含むテーブルを確実に認識できます。これら 2 つの手法のおかげで、テーブル構造認識アプローチは、SciTSR、PubTabNet、cTDaR TrackB2-Modern を含む 3 つの公開ベンチマークで最先端のパフォーマンスを達成しています。さらに、より困難な社内データセットで、複雑な構造、大きな空白スペース、幾何学的に歪んだ形状、さらには湾曲した形状を持つテーブルを認識する際のアプローチの利点をさらに実証しました。
We introduce a new table detection and structure recognition approach named RobusTabNet to detect the boundaries of tables and reconstruct the cellular structure of each table from heterogeneous document images. For table detection, we propose to use CornerNet as a new region proposal network to generate higher quality table proposals for Faster R-CNN, which has significantly improved the localization accuracy of Faster R-CNN for table detection. Consequently, our table detection approach achieves state-of-the-art performance on three public table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by only using a lightweight ResNet-18 backbone network. Furthermore, we propose a new split-and-merge based table structure recognition approach, in which a novel spatial CNN based separation line prediction module is proposed to split each detected table into a grid of cells, and a Grid CNN based cell merging module is applied to recover the spanning cells. As the spatial CNN module can effectively propagate contextual information across the whole table image, our table structure recognizer can robustly recognize tables with large blank spaces and geometrically distorted (even curved) tables. Thanks to these two techniques, our table structure recognition approach achieves state-of-the-art performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR TrackB2-Modern. Moreover, we have further demonstrated the advantages of our approach in recognizing tables with complex structures, large blank spaces, as well as geometrically distorted or even curved shapes on a more challenging in-house dataset.