arXiv reaDer
読む:ドキュメントレイアウト生成のための再帰的オートエンコーダー
READ: Recursive Autoencoders for Document Layout Generation
 レイアウトは、グラフィックデザインの基本コンポーネントです。さまざまな意味のあるドキュメントレイアウトを作成するのは退屈な作業であり、さまざまなセマンティック要素に関連するローカルな制約や、一般的な外観と間隔に対するグローバルな制約など、多くの制約を満たす必要があります。この論文では、ドキュメントレイアウト生成用の再帰的オートエンコーダーのために、大量の種類のドキュメントの妥当な2Dレイアウトを生成するための新しいフレームワーク、READと呼ばれるフレームワークを紹介します。最初に、単一の文書の構造的分解を抽出するための探索的再帰法を考案します。ラベル付きバウンディングボックスで注釈が付けられたドキュメントのデータセットを活用して、再帰ニューラルネットワークは、単純な階層の形式で与えられた構造表現を、ガウス分布で空間が近似されるコンパクトなコードにマッピングすることを学習します。このスペースから新しい階層をサンプリングして、新しいドキュメントレイアウトを取得できます。さらに、ドキュメントレイアウト間の構造的類似性を測定するための組み合わせメトリックを導入します。このメソッドをデプロイして、非常に可変的で現実的なレイアウトを生成できることを示します。さらに、ドキュメントの標準検出タスクのコンテキストで生成されたレイアウトの有用性を示し、レイアウトがREADによって生成された生成されたドキュメントでトレーニングデータが増強されると、検出パフォーマンスが向上することを示します。
Layout is a fundamental component of any graphic design. Creating large varieties of plausible document layouts can be a tedious task, requiring numerous constraints to be satisfied, including local ones relating different semantic elements and global constraints on the general appearance and spacing. In this paper, we present a novel framework, coined READ, for REcursive Autoencoders for Document layout generation, to generate plausible 2D layouts of documents in large quantities and varieties. First, we devise an exploratory recursive method to extract a structural decomposition of a single document. Leveraging a dataset of documents annotated with labeled bounding boxes, our recursive neural network learns to map the structural representation, given in the form of a simple hierarchy, to a compact code, the space of which is approximated by a Gaussian distribution. Novel hierarchies can be sampled from this space, obtaining new document layouts. Moreover, we introduce a combinatorial metric to measure structural similarity among document layouts. We deploy it to show that our method is able to generate highly variable and realistic layouts. We further demonstrate the utility of our generated layouts in the context of standard detection tasks on documents, showing that detection performance improves when the training data is augmented with generated documents whose layouts are produced by READ.
updated: Thu Apr 16 2020 23:26:17 GMT+0000 (UTC)
published: Sun Sep 01 2019 01:58:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト