arXiv reaDer
インスタンスのセグメンテーションに基づく歴史的なチベット文書の正確なきめ細かいレイアウト分析
Accurate Fine-grained Layout Analysis for the Historical Tibetan Document Based on the Instance Segmentation
後続のテキスト行セグメンテーションなしの正確なレイアウト分析は、特に、かなりの感動的なコンポーネントとまだらの背景を特徴とする一種の歴史的なチベット文書であるカンギュルに直面する場合、継続的な課題のままです。文書画像のさまざまな領域を特定することを目的として、文字認識などの後続の手順にはレイアウト分析が不可欠です。しかし、カンギュルに対処できなかったラインレベルのレイアウト分析を実行するために実行された研究はほんのわずかでした。最適な結果を得るために、きめ細かいサブラインレベルのレイアウト分析アプローチが提示されます。まず、動的で信頼性の高いデータセットを構築するための高速化された方法を導入しました。第二に、カンギュルの特性に応じてSOLOv2が強化されました。次に、トレーニングフェーズ中に、拡張されたSOLOv2に準備された注釈ファイルをフィードしました。ネットワークがトレーニングされると、推論段階でテキスト行、文、およびタイトルのインスタンスをセグメント化して識別できます。実験結果は、提案された方法が私たちのデータセットにまともな72.7%のAPを提供することを示しています。一般に、この予備調査は、きめ細かいサブラインレベルのレイアウト分析への洞察を提供し、SOLOv2ベースのアプローチを証明します。また、提案された方法は、さまざまなレイアウトを持つ他の言語のドキュメントにも採用できると考えています。
Accurate layout analysis without subsequent text-line segmentation remains an ongoing challenge, especially when facing the Kangyur, a kind of historical Tibetan document featuring considerable touching components and mottled background. Aiming at identifying different regions in document images, layout analysis is indispensable for subsequent procedures such as character recognition. However, there was only a little research being carried out to perform line-level layout analysis which failed to deal with the Kangyur. To obtain the optimal results, a fine-grained sub-line level layout analysis approach is presented. Firstly, we introduced an accelerated method to build the dataset which is dynamic and reliable. Secondly, enhancement had been made to the SOLOv2 according to the characteristics of the Kangyur. Then, we fed the enhanced SOLOv2 with the prepared annotation file during the training phase. Once the network is trained, instances of the text line, sentence, and titles can be segmented and identified during the inference stage. The experimental results show that the proposed method delivers a decent 72.7% AP on our dataset. In general, this preliminary research provides insights into the fine-grained sub-line level layout analysis and testifies the SOLOv2-based approaches. We also believe that the proposed methods can be adopted on other language documents with various layouts.
updated: Fri Oct 15 2021 15:49:44 GMT+0000 (UTC)
published: Fri Oct 15 2021 15:49:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト