arXiv reaDer
教師なしドキュメントスタイルガイドによるクロスドメインドキュメントレイアウト分析
Cross-Domain Document Layout Analysis via Unsupervised Document Style Guide
ドキュメントレイアウト分析(DLA)は、ドキュメント画像を高レベルのセマンティック領域(つまり、図、表、テキスト、背景)に分解することを目的としています。ドキュメントオブジェクトはレイアウト、サイズ、アスペクト比、テクスチャなどの多様性があるため、強力な一般化機能を備えたDLAフレームワークを作成することは課題です。多くの研究者は、データを合成して大規模なトレーニングセットを構築することにより、この課題に取り組みました。ただし、合成トレーニングデータには、さまざまなスタイルと不安定な品質があります。また、ソースデータとターゲットデータの間には大きなギャップがあります。この論文では、ドキュメントスタイルのガイダンスに基づいた教師なしクロスドメインDLAフレームワークを提案します。ドキュメントの品質評価とドキュメントのクロスドメイン分析を統合されたフレームワークに統合しました。私たちのフレームワークは、Document Layout Generator(GLD)、Document Elements Decorator(GED)、およびDocument Style Discriminator(DSD)の3つのコンポーネントで構成されています。 GLDはレイアウト生成の文書化に使用され、GEDはレイアウト要素の塗りつぶしの文書化に使用され、DSDは品質評価とクロスドメインガイダンスの文書化に使用されます。まず、GLDを適用して、生成されたドキュメントの位置を予測します。次に、美的ガイダンスに基づいてドキュメントの位置を埋めるための新しいアルゴリズムを設計します。最後に、対照学習を使用して、ドキュメントの品質評価を評価します。さらに、ドキュメント品質評価コンポーネントをドキュメントクロスドメインスタイルガイドコンポーネントに変更するための新しい戦略を設計します。私たちのフレームワークは、教師なしドキュメントレイアウト分析フレームワークです。我々は、提案した方法が驚くべき性能を達成したことを多くの実験を通して証明した。
The document layout analysis (DLA) aims to decompose document images into high-level semantic areas (i.e., figures, tables, texts, and background). Creating a DLA framework with strong generalization capabilities is a challenge due to document objects are diversity in layout, size, aspect ratio, texture, etc. Many researchers devoted this challenge by synthesizing data to build large training sets. However, the synthetic training data has different styles and erratic quality. Besides, there is a large gap between the source data and the target data. In this paper, we propose an unsupervised cross-domain DLA framework based on document style guidance. We integrated the document quality assessment and the document cross-domain analysis into a unified framework. Our framework is composed of three components, Document Layout Generator (GLD), Document Elements Decorator(GED), and Document Style Discriminator(DSD). The GLD is used to document layout generates, the GED is used to document layout elements fill, and the DSD is used to document quality assessment and cross-domain guidance. First, we apply GLD to predict the positions of the generated document. Then, we design a novel algorithm based on aesthetic guidance to fill the document positions. Finally, we use contrastive learning to evaluate the quality assessment of the document. Besides, we design a new strategy to change the document quality assessment component into a document cross-domain style guide component. Our framework is an unsupervised document layout analysis framework. We have proved through numerous experiments that our proposed method has achieved remarkable performance.
updated: Mon Jan 24 2022 00:49:19 GMT+0000 (UTC)
published: Mon Jan 24 2022 00:49:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト