arXiv reaDer
Doc-GCN: ドキュメント レイアウト分析のための異種グラフ畳み込みネットワーク
Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout Analysis
構造化されていないデジタル ドキュメントのレイアウトを認識することは、ダウンストリーム アプリケーション用にドキュメントを構造化された機械可読形式に解析する際に非常に重要です。ドキュメント レイアウト分析に関する最近の研究では、通常、コンピューター ビジョン モデルに依存してドキュメントを理解し、コンテキスト情報やドキュメント コンポーネントの関係など、キャプチャするために不可欠な他の情報を無視しています。当社の Doc-GCN は、ドキュメント レイアウト分析の異種の側面を調和させ、統合するための効果的な方法を提供します。最初に、構文、意味、密度、および外観/視覚情報を含む 4 つの主要な側面を明示的に記述するグラフを作成します。次に、情報の各側面を表すためにグラフ畳み込みネットワークを適用し、それらを統合するためにプーリングを使用します。最後に、各側面を集約し、ドキュメント レイアウト コンポーネント分類用の 2 層 MLP にフィードします。当社の Doc-GCN は、広く使用されている 3 つの DLA データセットで最先端の結果を達成しています。
Recognizing the layout of unstructured digital documents is crucial when parsing the documents into the structured, machine-readable format for downstream applications. Recent studies in Document Layout Analysis usually rely on computer vision models to understand documents while ignoring other information, such as context information or relation of document components, which are vital to capture. Our Doc-GCN presents an effective way to harmonize and integrate heterogeneous aspects for Document Layout Analysis. We first construct graphs to explicitly describe four main aspects, including syntactic, semantic, density, and appearance/visual information. Then, we apply graph convolutional networks for representing each aspect of information and use pooling to integrate them. Finally, we aggregate each aspect and feed them into 2-layer MLPs for document layout component classification. Our Doc-GCN achieves new state-of-the-art results in three widely used DLA datasets.
updated: Mon Sep 19 2022 05:59:40 GMT+0000 (UTC)
published: Mon Aug 22 2022 07:22:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト