図書館やさまざまな国立公文書館には、電子的に活用されていない膨大な量の歴史的文書があります。ページ全体の自動読み取りは残っていますが、ほとんどの場合、長期的な目標であるワードスポッティング、テキスト/画像の配置、認証、特定のフィールドの抽出などのタスクが今日使用されています。これらすべてのタスクの主要なステップは、テキスト行へのドキュメントの分割です。これらのドキュメントの低品質と複雑さ(バックグラウンドノイズ、経年劣化によるアーティファクト、干渉ライン)により、自動テキストラインセグメンテーションは未だに研究分野として開かれています。このペーパーの目的は、過去10年間に開発された歴史的関心のある文書専用の既存の方法の調査を提示することです。
There is a huge amount of historical documents in libraries and in various National Archives that have not been exploited electronically. Although automatic reading of complete pages remains, in most cases, a long-term objective, tasks such as word spotting, text/image alignment, authentication and extraction of specific fields are in use today. For all these tasks, a major step is document segmentation into text lines. Because of the low quality and the complexity of these documents (background noise, artifacts due to aging, interfering lines),automatic text line segmentation remains an open research field. The objective of this paper is to present a survey of existing methods, developed during the last decade, and dedicated to documents of historical interest.