arXiv reaDer
CHARTER:ヒートマップベースのマルチタイプチャートデータ抽出
CHARTER: heatmap-based multi-type chart data extraction
ドキュメントに保存されている情報のデジタル変換は、優れた知識源です。ドキュメントのテキストとは対照的に、チャートやプロットなどの埋め込みドキュメントのグラフィックの変換については、あまり検討されていません。ドキュメントチャートを機械可読な表形式のデータ形式にエンドツーエンドで変換する方法とシステムを紹介します。これは、デジタルドメインで簡単に保存および分析できます。私たちのアプローチでは、グラフをグラフ要素と、凡例、軸、タイトル、キャプションなどのサポート構造とともに抽出して分析します。私たちの検出システムは、合成データのみでトレーニングされたニューラルネットワークに基づいており、データ収集の制限要因を排除します。バウンディングボックスを使用してグラフィック要素を検出する以前の方法とは対照的に、当社のネットワークは、補助ドメイン固有のヒートマップ予測を備えており、長方形のバウンディングボックスの推定に適合しない円グラフ、線図、散布図を正確に検出できます。定性的および定量的な結果は、高い堅牢性と精度を示し、人気のあるベンチマークでの以前の作業を改善しています
The digital conversion of information stored in documents is a great source of knowledge. In contrast to the documents text, the conversion of the embedded documents graphics, such as charts and plots, has been much less explored. We present a method and a system for end-to-end conversion of document charts into machine readable tabular data format, which can be easily stored and analyzed in the digital domain. Our approach extracts and analyses charts along with their graphical elements and supporting structures such as legends, axes, titles, and captions. Our detection system is based on neural networks, trained solely on synthetic data, eliminating the limiting factor of data collection. As opposed to previous methods, which detect graphical elements using bounding-boxes, our networks feature auxiliary domain specific heatmaps prediction enabling the precise detection of pie charts, line and scatter plots which do not fit the rectangular bounding-box presumption. Qualitative and quantitative results show high robustness and precision, improving upon previous works on popular benchmarks
updated: Sun Nov 28 2021 11:01:21 GMT+0000 (UTC)
published: Sun Nov 28 2021 11:01:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト