arXiv reaDer
実際のエンドツーエンドのテーブル認識のための大規模なデータセット
A large-scale dataset for end-to-end table recognition in the wild
テーブル認識 (TR) は、画像内のテーブルから情報を抽出することを目的としたパターン認識の研究ホットスポットの 1 つです。一般的なテーブル認識タスクには、テーブル検出 (TD)、テーブル構造認識 (TSR)、およびテーブル コンテンツ認識 (TCR) が含まれます。 TD は画像内のテーブルを見つけることであり、TCR はテキスト コンテンツを認識し、TSR は空間的な論理構造を認識します。現在、3 つのサブタスクを同時に達成する実際のシナリオでのエンド ツー エンドの TR は、まだ未踏の研究領域です。研究者を阻害する主な要因の 1 つは、ベンチマーク データセットがないことです。この目的のために、私たちはテーブル認識セット (TabRecSet) という名前の新しい大規模なデータセットを提案します。このデータセットには、実際の複数のシナリオから調達された多様なテーブル フォームが含まれており、エンド ツー エンドの TR 研究専用の完全な注釈が提供されます。これは、エンド ツー エンド TR の最大かつ最初のバイリンガル データセットであり、38.1K のテーブルがあり、そのうち 20.4K が英語で、17.7K が中国語です。サンプルには、完全なボーダーと不完全なテーブル、規則的なテーブルと不規則なテーブル (回転、歪曲など) など、さまざまな形式があります。シナリオは、スキャンされた画像からカメラで撮影された画像、ドキュメントから Excel のテーブル、教育用テスト用紙から財務請求書までさまざまで、実際には複数あります。 TD、TSR、および TCR のそれぞれのテーブル ボディ空間アノテーション、セル空間論理アノテーション、およびテキスト コンテンツで構成されるアノテーションは完全です。空間注釈は、ほとんどのデータセットで採用されているバウンディング ボックスまたは四角形の代わりにポリゴンを利用します。多角形の空間注釈は、野生のシナリオで一般的な不規則なテーブルに適しています。さらに、TableMe という名前の視覚化されたインタラクティブな注釈ツールを提案して、テーブル注釈の効率と品質を向上させます。
Table recognition (TR) is one of the research hotspots in pattern recognition, which aims to extract information from tables in an image. Common table recognition tasks include table detection (TD), table structure recognition (TSR) and table content recognition (TCR). TD is to locate tables in the image, TCR recognizes text content, and TSR recognizes spatial ogical structure. Currently, the end-to-end TR in real scenarios, accomplishing the three sub-tasks simultaneously, is yet an unexplored research area. One major factor that inhibits researchers is the lack of a benchmark dataset. To this end, we propose a new large-scale dataset named Table Recognition Set (TabRecSet) with diverse table forms sourcing from multiple scenarios in the wild, providing complete annotation dedicated to end-to-end TR research. It is the largest and first bi-lingual dataset for end-to-end TR, with 38.1K tables in which 20.4K are in English and 17.7K are in Chinese. The samples have diverse forms, such as the border-complete and -incomplete table, regular and irregular table (rotated, distorted, etc.). The scenarios are multiple in the wild, varying from scanned to camera-taken images, documents to Excel tables, educational test papers to financial invoices. The annotations are complete, consisting of the table body spatial annotation, cell spatial logical annotation and text content for TD, TSR and TCR, respectively. The spatial annotation utilizes the polygon instead of the bounding box or quadrilateral adopted by most datasets. The polygon spatial annotation is more suitable for irregular tables that are common in wild scenarios. Additionally, we propose a visualized and interactive annotation tool named TableMe to improve the efficiency and quality of table annotation.
updated: Mon Mar 27 2023 02:48:51 GMT+0000 (UTC)
published: Mon Mar 27 2023 02:48:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト