arXiv reaDer
分音記号を使用した画像内のテキストのデバイス上の言語識別
On-Device Language Identification of Text in Images using Diacritic Characters
分音記号は、特定の言語をかなり高い精度で識別するための適切で重要な手がかりを提供する一意の文字セットと見なすことができます。発音区別符号は、音声学に関連付けられていますが、多くの言語、特にラテン文字を使用する言語の際立った機能として機能することがよくあります。この提案された作業では、任意の自動化環境で光学式文字認識(OCR)のパフォーマンスを向上させるために、発音区別符号の存在を使用して画像内のテキストの言語を識別することを目指しています。 85の発音区別符号を含む13のラテン言語にわたる作業を紹介します。発音区別符号のオブジェクト検出にはSqueezedetと同様のアーキテクチャを使用し、その後に浅いネットワークを使用して最終的に言語を識別します。識別された言語パラメータを伴う場合、OCRシステムは、OCRシステムの単独展開よりも優れた結果を生み出す傾向があります。 OCRの結果の改善を保証することとは別に、説明した作業では、モデルのサイズと推論時間の観点から、デバイス上(携帯電話)の制約も考慮に入れています。
Diacritic characters can be considered as a unique set of characters providing us with adequate and significant clue in identifying a given language with considerably high accuracy. Diacritics, though associated with phonetics often serve as a distinguishing feature for many languages especially the ones with a Latin script. In this proposed work, we aim to identify language of text in images using the presence of diacritic characters in order to improve Optical Character Recognition (OCR) performance in any given automated environment. We showcase our work across 13 Latin languages encompassing 85 diacritic characters. We use an architecture similar to Squeezedet for object detection of diacritic characters followed by a shallow network to finally identify the language. OCR systems when accompanied with identified language parameter tends to produce better results than sole deployment of OCR systems. The discussed work apart from guaranteeing an improvement in OCR results also takes on-device (mobile phone) constraints into consideration in terms of model size and inference time.
updated: Tue Nov 10 2020 14:10:06 GMT+0000 (UTC)
published: Tue Nov 10 2020 14:10:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト