arXiv reaDer
ScanBank:スキャンされた電子論文および論文からの図抽出のためのベンチマークデータセット
ScanBank: A Benchmark Dataset for Figure Extraction from Scanned Electronic Theses and Dissertations
600万以上が公開されており、分野を超えた研究と教育を支援する重要なコーパスを構成しているため、アクセスの改善とその有用性の拡大を目指して、電子論文と論文(ETD)に焦点を当てています。コーパスは、生まれたばかりのデジタルドキュメントが含まれるにつれて成長しており、何百万もの古い論文や論文がデジタル形式に変換されて、機関リポジトリに電子的に配布されています。 ETDでは、他の学術研究と同様に、図や表で大量の情報を簡潔に伝えることができます。生まれたデジタルPDFから図や表を抽出する方法が提案されていますが、スキャンされたETDではうまく機能しません。この問題を考慮して、最先端の図形抽出システムの評価は、スキャンされたPDFでうまく機能しない理由は、生まれたデジタルドキュメントでのみトレーニングされているためです。この制限に対処するために、スキャンされた1万ページの画像を含む新しいデータセットであるScanBankを紹介します。このデータセットには、3.3千の図または表の存在に関して人間が手動でラベルを付けています。このデータセットを使用して、YOLOv5に基づくディープニューラルネットワークモデルをトレーニングし、スキャンされたETDから図と表を正確に抽出します。スキャンしたドキュメントから図を抽出するためのより良い方法を見つけることを目的とした重要な調査の質問を提起し、回答します。それらの1つは、スキャンされたドキュメントからの図の抽出により適したモデルをトレーニングするために使用される、生まれたデジタルドキュメントに適用されるデータ拡張技術のトレーニングの価値に関するものです。私たちの知る限り、ScanBankは、スキャンされたETDの図と表を抽出するための最初の手動注釈付きデータセットです。 ScanBankでトレーニングされたYOLOv5ベースのモデルは、既存の同等のオープンソースで自由に利用できるベースライン手法をかなりの差で上回っています。
We focus on electronic theses and dissertations (ETDs), aiming to improve access and expand their utility, since more than 6 million are publicly available, and they constitute an important corpus to aid research and education across disciplines. The corpus is growing as new born-digital documents are included, and since millions of older theses and dissertations have been converted to digital form to be disseminated electronically in institutional repositories. In ETDs, as with other scholarly works, figures and tables can communicate a large amount of information in a concise way. Although methods have been proposed for extracting figures and tables from born-digital PDFs, they do not work well with scanned ETDs. Considering this problem, our assessment of state-of-the-art figure extraction systems is that the reason they do not function well on scanned PDFs is that they have only been trained on born-digital documents. To address this limitation, we present ScanBank, a new dataset containing 10 thousand scanned page images, manually labeled by humans as to the presence of the 3.3 thousand figures or tables found therein. We use this dataset to train a deep neural network model based on YOLOv5 to accurately extract figures and tables from scanned ETDs. We pose and answer important research questions aimed at finding better methods for figure extraction from scanned documents. One of those concerns the value for training, of data augmentation techniques applied to born-digital documents which are used to train models better suited for figure extraction from scanned documents. To the best of our knowledge, ScanBank is the first manually annotated dataset for figure and table extraction for scanned ETDs. A YOLOv5-based model, trained on ScanBank, outperforms existing comparable open-source and freely available baseline methods by a considerable margin.
updated: Wed Jun 23 2021 04:43:56 GMT+0000 (UTC)
published: Wed Jun 23 2021 04:43:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト