TableBankを紹介します。これは、インターネット上のWordおよびLatexドキュメントからの新しい弱い監視機能で構築された新しい画像ベースのテーブル検出および認識データセットです。画像ベースのテーブルの検出と認識に関する既存の研究では、通常、ドメイン外のデータの事前トレーニング済みモデルを、実際のアプリケーションで一般化するのが難しい数千人の人間がラベル付けした例で微調整しています。 417Kの高品質のラベル付きテーブルを含むTableBankでは、ディープニューラルネットワークを備えた最先端のモデルを使用して、いくつかの強力なベースラインを構築します。 TableBankを公開し、テーブルの検出と認識のタスクでより深い学習アプローチを強化できることを願っています。データセットとモデルは、https://github.com/doc-analysis/TableBankで入手できます。
We present TableBank, a new image-based table detection and recognition dataset built with novel weak supervision from Word and Latex documents on the internet. Existing research for image-based table detection and recognition usually fine-tunes pre-trained models on out-of-domain data with a few thousand human-labeled examples, which is difficult to generalize on real-world applications. With TableBank that contains 417K high quality labeled tables, we build several strong baselines using state-of-the-art models with deep neural networks. We make TableBank publicly available and hope it will empower more deep learning approaches in the table detection and recognition task. The dataset and models are available at https://github.com/doc-analysis/TableBank.