arXiv reaDer
注意を払ったシーケンスツーシーケンスを使用したエンドツーエンドのクメール語光学式文字認識
An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention
この論文は、クメールの光学式文字認識(OCR)タスクのためのエンドツーエンドの深い畳み込みリカレントニューラルネットワークソリューションを提示します。提案されたソリューションは、アテンションメカニズムを備えたシーケンスツーシーケンス(Seq2Seq)アーキテクチャを使用します。エンコーダーは、残差畳み込みブロックのレイヤーとゲート付き回帰ユニット(GRU)のレイヤーを介して、入力テキスト行画像から視覚的特徴を抽出します。機能は、単一のコンテキストベクトルと一連の非表示状態でエンコードされ、特別な文末(EOS)トークンに到達するまで、一度に1文字ずつデコードするためにデコーダーに送られます。注意メカニズムにより、デコーダネットワークは、ターゲット文字を予測しながら、入力画像の一部を適応的に選択できます。 Seq2SeqクメールOCRネットワークは、7つの一般的なクメールフォント用にコンピューターで生成されたテキスト行画像の大規模なコレクションでトレーニングされました。提案されたモデルのパフォーマンスは、1%対3%の文字エラー率(CER)を達成することにより、3000画像テストセットでクメール語の最先端のTesseractOCRエンジンを上回りました。
This paper presents an end-to-end deep convolutional recurrent neural network solution for Khmer optical character recognition (OCR) task. The proposed solution uses a sequence-to-sequence (Seq2Seq) architecture with attention mechanism. The encoder extracts visual features from an input text-line image via layers of residual convolutional blocks and a layer of gated recurrent units (GRU). The features are encoded in a single context vector and a sequence of hidden states which are fed to the decoder for decoding one character at a time until a special end-of-sentence (EOS) token is reached. The attention mechanism allows the decoder network to adaptively select parts of the input image while predicting a target character. The Seq2Seq Khmer OCR network was trained on a large collection of computer-generated text-line images for seven common Khmer fonts. The proposed model's performance outperformed the state-of-art Tesseract OCR engine for Khmer language on the 3000-images test set by achieving a character error rate (CER) of 1% vs 3%.
updated: Mon Jun 21 2021 06:18:23 GMT+0000 (UTC)
published: Mon Jun 21 2021 06:18:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト