arXiv reaDer
docExtractor:既成の履歴ドキュメント要素の抽出
docExtractor: An off-the-shelf historical document element extraction
docExtractorを紹介します。これは、実際のデータ注釈を必要とせずに、履歴ドキュメントからテキスト行やイラストなどの視覚要素を抽出するための一般的なアプローチです。さまざまなデータセットにわたって既成のシステムとして高品質のパフォーマンスを提供し、微調整すると最先端の結果につながることを示します。特定のデータセットを微調整せずに得られたパフォーマンスは、アプリケーション、特にデジタルヒューマニティーズにとって重要であり、私たちが取り組む行レベルのページセグメンテーションは、汎用要素抽出エンジンに最も関連性があると主張します。豊富な合成ドキュメントの高速ジェネレーターに依存し、完全な畳み込みネットワークを設計します。これは、検出ベースのアプローチよりも一般化することを示しています。さらに、歴史的文書のイラストセグメンテーションの詳細な評価専用のIlluHisDocと呼ばれる新しい公開データセットを紹介します。
We present docExtractor, a generic approach for extracting visual elements such as text lines or illustrations from historical documents without requiring any real data annotation. We demonstrate it provides high-quality performances as an off-the-shelf system across a wide variety of datasets and leads to results on par with state-of-the-art when fine-tuned. We argue that the performance obtained without fine-tuning on a specific dataset is critical for applications, in particular in digital humanities, and that the line-level page segmentation we address is the most relevant for a general purpose element extraction engine. We rely on a fast generator of rich synthetic documents and design a fully convolutional network, which we show to generalize better than a detection-based approach. Furthermore, we introduce a new public dataset dubbed IlluHisDoc dedicated to the fine evaluation of illustration segmentation in historical documents.
updated: Tue Dec 15 2020 10:19:18 GMT+0000 (UTC)
published: Tue Dec 15 2020 10:19:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト