レンダリング(PDF、スキャンなど)を階層的なドキュメント構造に変換することは、多くの実際のアプリケーションの日常業務で広く求められています。ただし、ドキュメントの完全な階層構造を推測するための全体的で原理的なアプローチが欠落しています。解決策として、「DocParser」を開発しました。これは、すべてのテキスト要素、ネストされた図、テーブル、テーブルセル構造を含む完全なドキュメント構造を解析するためのエンドツーエンドシステムです。 2番目の貢献は、階層的なドキュメント構造の解析を評価するためのデータセットを提供することです。私たちの3番目の貢献は、ドメイン固有のデータが不足している設定のためのスケーラブルな学習フレームワークを提案することです。これは、ドキュメント構造の解析パフォーマンスを大幅に向上させる弱い監視への新しいアプローチによって対処します。私たちの実験は、提案された弱い監視の有効性を確認します。弱い監視のないベースラインと比較して、ドキュメントエンティティを検出するための平均平均精度が39.1%向上し、階層関係を分類するF1スコアが35.8%向上します。
Translating renderings (e. g. PDFs, scans) into hierarchical document structures is extensively demanded in the daily routines of many real-world applications. However, a holistic, principled approach to inferring the complete hierarchical structure of documents is missing. As a remedy, we developed "DocParser": an end-to-end system for parsing the complete document structure - including all text elements, nested figures, tables, and table cell structures. Our second contribution is to provide a dataset for evaluating hierarchical document structure parsing. Our third contribution is to propose a scalable learning framework for settings where domain-specific data are scarce, which we address by a novel approach to weak supervision that significantly improves the document structure parsing performance. Our experiments confirm the effectiveness of our proposed weak supervision: Compared to the baseline without weak supervision, it improves the mean average precision for detecting document entities by 39.1 % and improves the F1 score of classifying hierarchical relations by 35.8 %.