arXiv reaDer
非ラテンシーンのテキスト認識の精度の向上に向けて
Towards Boosting the Accuracy of Non-Latin Scene Text Recognition
シーンテキストの認識は、複数のフォント、単純な語彙統計、更新されたデータ生成ツール、書記体系などのいくつかの要因により、非ラテン語よりもラテン語で著しく優れています。このホワイトペーパーでは、英語のデータセットを非ラテン語と比較することにより、精度が低い理由として考えられるものを検証します。単語画像のサイズ(幅と高さ)や単語の長さの統計など、さまざまな機能を比較します。過去10年間で、強力な深層学習技術を使用して合成データセットを生成することで、シーンテキスト認識が大幅に向上しました。 (i)合成データを作成するためのフォントと、(ii)作成された単語画像の数を変えることにより、英語でいくつかの制御された実験が実行されます。これらの要因がシーンテキスト認識システムにとって重要であることを発見しました。英語の合成データセットは1400を超えるフォントを使用しますが、アラビア語およびその他の非ラテン語のデータセットはデータ生成に100未満のフォントを使用します。これらの言語の一部は異なる地域の一部であるため、地域ベースの検索を通じて追加のフォントを収集し、アラビア語とデーバナーガリー語のシーンテキスト認識モデルを改善します。アラビア語のMLT-17およびMLT-19データセットの単語認識率(WRR)を、以前の作業またはベースラインと比較して24.54%および2.32%改善します。 IIIT-ILSTおよびMLT-19デーバナーガリーデータセットで7.88%および3.72%のWRRゲインを達成します。
Scene-text recognition is remarkably better in Latin languages than the non-Latin languages due to several factors like multiple fonts, simplistic vocabulary statistics, updated data generation tools, and writing systems. This paper examines the possible reasons for low accuracy by comparing English datasets with non-Latin languages. We compare various features like the size (width and height) of the word images and word length statistics. Over the last decade, generating synthetic datasets with powerful deep learning techniques has tremendously improved scene-text recognition. Several controlled experiments are performed on English, by varying the number of (i) fonts to create the synthetic data and (ii) created word images. We discover that these factors are critical for the scene-text recognition systems. The English synthetic datasets utilize over 1400 fonts while Arabic and other non-Latin datasets utilize less than 100 fonts for data generation. Since some of these languages are a part of different regions, we garner additional fonts through a region-based search to improve the scene-text recognition models in Arabic and Devanagari. We improve the Word Recognition Rates (WRRs) on Arabic MLT-17 and MLT-19 datasets by 24.54% and 2.32% compared to previous works or baselines. We achieve WRR gains of 7.88% and 3.72% for IIIT-ILST and MLT-19 Devanagari datasets.
updated: Mon Jan 10 2022 06:36:43 GMT+0000 (UTC)
published: Mon Jan 10 2022 06:36:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト