arXiv reaDer
LGPMA:ローカルおよびグローバルピラミッドマスクアライメントによる複雑なテーブル構造認識
LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment
テーブル構造の認識は、さまざまな構造と複雑なセルスパン関係のため、困難な作業です。以前の方法では、さまざまな粒度の要素(行/列、テキスト領域)から問題を処理していましたが、これは、不可逆的なヒューリスティックルールや空のセル分割の無視などの問題に分類されました。テーブル構造の特性に基づいて、テキスト領域の整列された境界ボックスを取得すると、さまざまなセルの関連する範囲全体を効果的に維持できることがわかります。ただし、位置合わせされた境界ボックスは、視覚的なあいまいさのために正確に予測することは困難です。本論文では、提案されたローカル特徴のテキスト領域とグローバル特徴のセル関係の両方からの視覚情報を十分に活用することにより、より信頼性の高い整列された境界ボックスを取得することを目指しています。具体的には、ローカルとグローバルの両方の特徴マップでソフトピラミッドマスク学習メカニズムを採用する、ローカルとグローバルのピラミッドマスクアライメントのフレームワークを提案します。これにより、境界ボックスの予測された境界が元の提案の制限を突破することができます。次に、ピラミッドマスク再スコアリングモジュールが統合されて、ローカルおよびグローバル情報が危険にさらされ、予測された境界が洗練されます。最後に、最終的な構造を取得するための堅牢なテーブル構造回復パイプラインを提案します。このパイプラインでは、空のセルの検索と分割の問題も効果的に解決します。実験結果は、提案された方法がいくつかの公開ベンチマークで競争力のある、さらには新しい最先端のパフォーマンスを達成することを示しています。
Table structure recognition is a challenging task due to the various structures and complicated cell spanning relations. Previous methods handled the problem starting from elements in different granularities (rows/columns, text regions), which somehow fell into the issues like lossy heuristic rules or neglect of empty cell division. Based on table structure characteristics, we find that obtaining the aligned bounding boxes of text region can effectively maintain the entire relevant range of different cells. However, the aligned bounding boxes are hard to be accurately predicted due to the visual ambiguities. In this paper, we aim to obtain more reliable aligned bounding boxes by fully utilizing the visual information from both text regions in proposed local features and cell relations in global features. Specifically, we propose the framework of Local and Global Pyramid Mask Alignment, which adopts the soft pyramid mask learning mechanism in both the local and global feature maps. It allows the predicted boundaries of bounding boxes to break through the limitation of original proposals. A pyramid mask re-scoring module is then integrated to compromise the local and global information and refine the predicted boundaries. Finally, we propose a robust table structure recovery pipeline to obtain the final structure, in which we also effectively solve the problems of empty cells locating and division. Experimental results show that the proposed method achieves competitive and even new state-of-the-art performance on several public benchmarks.
updated: Mon Oct 25 2021 09:24:19 GMT+0000 (UTC)
published: Thu May 13 2021 12:24:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト