arXiv reaDer
歴史的文書分類におけるテキスト行の重要性
Importance of Textlines in Historical Document Classification
この論文では、ブルノ工科大学でICDAR 2021の歴史的文書分類に関する競争のために準備されたシステム、その設計につながる実験、および主な調査結果について説明します。解決されたタスクには、スクリプトとフォントの分類、ドキュメントの出所のローカリゼーション、および日付が含まれます。パッチレベルとラインレベルのアプローチを組み合わせました。ラインレベルのシステムは、既存の公開されているページレイアウト分析エンジンを利用します。両方のシステムで、ニューラルネットワークはページレベルの決定に結合されるローカル予測を提供し、両方のシステムの結果は線形または対数線形補間を使用して融合されます。複数の可能なラベルが提供される弱教師あり分類問題に適した損失関数を提案し、交際タスクの区間回帰に適した損失関数を提案します。行レベルのシステムは、スクリプトとフォントの分類、および日付付けタスクの結果を大幅に改善します。フルシステムは、フォント、スクリプト、および場所の分類タスクで、それぞれ98.48%、88.84%、および79.69%の精度を達成しました。交際タスクでは、私たちのシステムは21。91年の平均絶対誤差を達成しました。
This paper describes a system prepared at Brno University of Technology for ICDAR 2021 Competition on Historical Document Classification, experiments leading to its design, and the main findings. The solved tasks include script and font classification, document origin localization, and dating. We combined patch-level and line-level approaches, where the line-level system utilizes an existing, publicly available page layout analysis engine. In both systems, neural networks provide local predictions which are combined into page-level decisions, and the results of both systems are fused using linear or log-linear interpolation. We propose loss functions suitable for weakly supervised classification problem where multiple possible labels are provided, and we propose loss functions suitable for interval regression in the dating task. The line-level system significantly improves results in script and font classification and in the dating task. The full system achieved 98.48 %, 88.84 %, and 79.69 % accuracy in the font, script, and location classification tasks respectively. In the dating task, our system achieved a mean absolute error of 21.91 years.
updated: Mon Jan 24 2022 10:37:43 GMT+0000 (UTC)
published: Mon Jan 24 2022 10:37:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト