arXiv reaDer
表構造認識によるICTサプライチェーンソーシャルネットワークにおける効率的な情報共有
Efficient Information Sharing in ICT Supply Chain Social Network via Table Structure Recognition
グローバルな情報通信技術 (ICT) サプライ チェーンは、あらゆるタイプの参加者で構成される複雑なネットワークです。多くの場合、サプライ チェーン ネットワークの関係、プロパティ、およびサプライ チェーン マネジメントの開発について議論するために、ソーシャル ネットワークとして定式化されます。情報共有は、サプライ チェーンの効率を改善する上で重要な役割を果たします。データシートは、人間が読みやすいため、ICT サプライ チェーンで電子部品商品を記述するための最も一般的なデータ形式です。しかし、電子ドキュメントの数が急増しているため、人間の読み取り能力をはるかに超えており、表の構造が複雑でレイアウトが異質であるため、表形式のデータを自動的に処理することも困難です。テーブル構造認識 (TSR) は、表形式のデータを自動的に処理できるように、複雑な構造を持つテーブルを機械で解釈できる形式で表すことを目的としています。この論文では、TSRをオブジェクト検出問題として定式化し、複雑なテーブル構造の直感的な表現を生成して、商品に関連する表形式データの構造化を可能にすることを提案します。ボーダーレスや小さなレイアウトに対応するために、各クラスの検出難易度を考慮して、コストに敏感な損失関数を提案します。さらに、テーブルの列は同じ高さを共有し、テーブルの行は同じ幅を共有するというテーブルの性質を利用した新しいアンカー生成方法を提案します。 Faster-RCNN に基づいて提案された方法を実装し、平均平均精度 (AP) で 94.79% を達成し、さまざまなベンチマーク モデルで 1.5% 以上の AP を一貫して改善します。
The global Information and Communications Technology (ICT) supply chain is a complex network consisting of all types of participants. It is often formulated as a Social Network to discuss the supply chain network's relations, properties, and development in supply chain management. Information sharing plays a crucial role in improving the efficiency of the supply chain, and datasheets are the most common data format to describe e-component commodities in the ICT supply chain because of human readability. However, with the surging number of electronic documents, it has been far beyond the capacity of human readers, and it is also challenging to process tabular data automatically because of the complex table structures and heterogeneous layouts. Table Structure Recognition (TSR) aims to represent tables with complex structures in a machine-interpretable format so that the tabular data can be processed automatically. In this paper, we formulate TSR as an object detection problem and propose to generate an intuitive representation of a complex table structure to enable structuring of the tabular data related to the commodities. To cope with border-less and small layouts, we propose a cost-sensitive loss function by considering the detection difficulty of each class. Besides, we propose a novel anchor generation method using the character of tables that columns in a table should share an identical height, and rows in a table should share the same width. We implement our proposed method based on Faster-RCNN and achieve 94.79% on mean Average Precision (AP), and consistently improve more than 1.5% AP for different benchmark models.
updated: Thu Nov 03 2022 20:03:07 GMT+0000 (UTC)
published: Thu Nov 03 2022 20:03:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト