arXiv reaDer
テーブル構造認識のためのニューラルコラボレーティブグラフマシン
Neural Collaborative Graph Machines for Table Structure Recognition
最近、テーブル構造の認識は、深いグラフモデルの助けを借りて目覚ましい進歩を遂げました。それらのほとんどは、表形式の要素の単一の視覚的手がかりを利用するか、グラフの関係を推論するために、初期の融合を介して視覚的手がかりを他のモダリティと単純に組み合わせます。ただし、初期の融合も、複数のモダリティに関する個別の推論も、多様性の高いすべての種類のテーブル構造に適しているわけではありません。代わりに、さまざまなモダリティが、さまざまなテーブルケースに対してさまざまなパターンで相互に連携することが期待されます。コミュニティでは、テーブル構造の推論のためのモダリティ間相互作用の重要性はまだ調査されていません。この論文では、それを異種テーブル構造認識(Hetero-TSR)問題として定義します。このギャップを埋めることを目的として、スタックされたコラボレーティブブロックを備えた新しいニューラルコラボレーティブグラフマシン(NCGM)を紹介します。これは、モダリティ内のコンテキストを抽出し、モダリティ間の相互作用を階層的にモデル化します。表形式要素のモダリティ内の関係をより堅牢に表すことができるため、認識パフォーマンスが大幅に向上します。また、提案されたNCGMは、多様なテーブルケースに不可欠な、モダリティ内キューのコンテキストを条件とするさまざまなモダリティのコラボレーションパターンを調整できることも示しています。ベンチマークの実験結果は、提案されたNCGMが最先端のパフォーマンスを達成し、特に困難なシナリオの下で他の現代的な方法を大幅に上回っていることを示しています。
Recently, table structure recognition has achieved impressive progress with the help of deep graph models. Most of them exploit single visual cues of tabular elements or simply combine visual cues with other modalities via early fusion to reason their graph relationships. However, neither early fusion nor individually reasoning in terms of multiple modalities can be appropriate for all varieties of table structures with great diversity. Instead, different modalities are expected to collaborate with each other in different patterns for different table cases. In the community, the importance of intra-inter modality interactions for table structure reasoning is still unexplored. In this paper, we define it as heterogeneous table structure recognition (Hetero-TSR) problem. With the aim of filling this gap, we present a novel Neural Collaborative Graph Machines (NCGM) equipped with stacked collaborative blocks, which alternatively extracts intra-modality context and models inter-modality interactions in a hierarchical way. It can represent the intra-inter modality relationships of tabular elements more robustly, which significantly improves the recognition performance. We also show that the proposed NCGM can modulate collaborative pattern of different modalities conditioned on the context of intra-modality cues, which is vital for diversified table cases. Experimental results on benchmarks demonstrate our proposed NCGM achieves state-of-the-art performance and beats other contemporary methods by a large margin especially under challenging scenarios.
updated: Fri Nov 26 2021 08:40:47 GMT+0000 (UTC)
published: Fri Nov 26 2021 08:40:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト