arXiv reaDer
注釈なしのレイアウト認識のための合成ドキュメントジェネレータ
Synthetic Document Generator for Annotation-free Layout Recognition
ドキュメントのレイアウトを分析してヘッダー、セクション、表、図などを特定することは、その内容を理解するために重要です。ドキュメント画像のレイアウト構造を検出するためのディープラーニングベースのアプローチは有望です。ただし、これらの方法では、トレーニング中に多数の注釈付きの例が必要であり、取得するのに費用と時間がかかります。ここでは、レイアウト要素の空間位置、範囲、およびカテゴリのラベルを使用して現実的なドキュメントを自動的に生成する合成ドキュメントジェネレータについて説明します。提案された生成プロセスは、ドキュメントのすべての物理コンポーネントを確率変数として扱い、ベイジアンネットワークグラフを使用してそれらの固有の依存関係をモデル化します。確率的テンプレートを使用した階層的な定式化により、幅広いテーマを保持するためにドキュメント間でパラメータを共有できますが、分布特性によって視覚的に一意のサンプルが生成されるため、複雑で多様なレイアウトがキャプチャされます。純粋に合成ドキュメントでトレーニングされたディープレイアウト検出モデルが、実際のドキュメントを使用するモデルのパフォーマンスと一致する可能性があることを経験的に示します。
Analyzing the layout of a document to identify headers, sections, tables, figures etc. is critical to understanding its content. Deep learning based approaches for detecting the layout structure of document images have been promising. However, these methods require a large number of annotated examples during training, which are both expensive and time consuming to obtain. We describe here a synthetic document generator that automatically produces realistic documents with labels for spatial positions, extents and categories of the layout elements. The proposed generative process treats every physical component of a document as a random variable and models their intrinsic dependencies using a Bayesian Network graph. Our hierarchical formulation using stochastic templates allow parameter sharing between documents for retaining broad themes and yet the distributional characteristics produces visually unique samples, thereby capturing complex and diverse layouts. We empirically illustrate that a deep layout detection model trained purely on the synthetic documents can match the performance of a model that uses real documents.
updated: Sun Jul 24 2022 18:06:57 GMT+0000 (UTC)
published: Thu Nov 11 2021 01:58:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト