arXiv reaDer
審美的な画像拡張によるドキュメントレイアウト分析
Document Layout Analysis with Aesthetic-Guided Image Augmentation
ドキュメントレイアウト分析(DLA)は、情報の抽出とドキュメントの理解において重要な役割を果たします。現在、ドキュメントレイアウト分析は画期的な成果に達していますが、マンハッタン以外のドキュメントレイアウト分析は依然として課題です。本論文では、この課題に取り組むための画像層モデリング手法を提案する。提案された画像レイヤーモデリング方法を測定するために、FPDという名前の手動でラベル付けされた非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットを提案します。私たちが知る限り、FPDは、手動でラベル付けされた最初の非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットです。ドキュメントのきめ細かい特徴を効果的に抽出するために、LE ^ 3Netという名前のエッジ埋め込みネットワークを提案します。実験結果は、提案された画像レイヤーモデリング方法が、マンハッタン以外のレイアウトの細かくセグメント化されたドキュメントをより適切に処理できることを証明しています。
Document layout analysis (DLA) plays an important role in information extraction and document understanding. At present, document layout analysis has reached a milestone achievement, however, document layout analysis of non-Manhattan is still a challenge. In this paper, we propose an image layer modeling method to tackle this challenge. To measure the proposed image layer modeling method, we propose a manually-labeled non-Manhattan layout fine-grained segmentation dataset named FPD. As far as we know, FPD is the first manually-labeled non-Manhattan layout fine-grained segmentation dataset. To effectively extract fine-grained features of documents, we propose an edge embedding network named L-E^3Net. Experimental results prove that our proposed image layer modeling method can better deal with the fine-grained segmented document of the non-Manhattan layout.
updated: Sat Nov 27 2021 04:04:58 GMT+0000 (UTC)
published: Sat Nov 27 2021 04:04:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト