arXiv reaDer
壊れたニュース:新聞を印刷物にアクセスできるようにする-障害のある
Broken News: Making Newspapers Accessible to Print-Impaired
毎日のニュースコンテンツにアクセスすることは、印刷されたコンテンツの不透明さとオンラインソースからの妨害のために、視覚障害や低視力を含む印刷障害のある人々にとって依然として大きな課題です。この論文では、印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化するためのアプローチを紹介します。新聞のレイアウト分析にはインスタンスのセグメンテーションと検出のフレームワークのアンサンブルを使用し、次にOCRを使用して見出しや記事のテキストなどのテキスト要素を認識します。さらに、Mask-RCNNフレームワークのEdgeMask損失関数を提案して、セグメンテーションマスク境界を改善し、ダウンストリームOCRタスクの精度を向上させます。経験的に、提案された損失関数がニュース記事テキストの単語誤り率(WER)を32.5%削減することを示します。
Accessing daily news content still remains a big challenge for people with print-impairment including blind and low-vision due to opacity of printed content and hindrance from online sources. In this paper, we present our approach for digitization of print newspaper into an accessible file format such as HTML. We use an ensemble of instance segmentation and detection framework for newspaper layout analysis and then OCR to recognize text elements such as headline and article text. Additionally, we propose EdgeMask loss function for Mask-RCNN framework to improve segmentation mask boundary and hence accuracy of downstream OCR task. Empirically, we show that our proposed loss function reduces the Word Error Rate (WER) of news article text by 32.5 %.
updated: Tue Jun 21 2022 09:48:11 GMT+0000 (UTC)
published: Tue Jun 21 2022 09:48:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト