オフライン手書き認識は、過去数十年にわたって継続的に進歩しています。ただし、既存の方法は通常、高品質の画像と手書きスタイル、および同種のコンテンツに偏った自由形式のテキストデータセットでベンチマークされます。このホワイトペーパーでは、長い短期メモリ(LSTM)レイヤーを使用する最新のアルゴリズムは、フォームなどの現実世界の構造化ドキュメントに容易に一般化できないことを示しています。語彙コンテンツ、およびこのコンテンツ固有のあいまいさ。これに対処するために、LSTMベースのアーキテクチャ内でコンテンツタイプを活用することを提案します。さらに、高価な手動注釈を必要とせずにこのアーキテクチャをトレーニングするための合成データを生成する手順を紹介します。私たちは、欧州の事故報告書のやりがいのある現実世界のデータセットにテキストを転写する際のアプローチの有効性を実証します。
Offline handwriting recognition has undergone continuous progress over the past decades. However, existing methods are typically benchmarked on free-form text datasets that are biased towards good-quality images and handwriting styles, and homogeneous content. In this paper, we show that state-of-the-art algorithms, employing long short-term memory (LSTM) layers, do not readily generalize to real-world structured documents, such as forms, due to their highly heterogeneous and out-of-vocabulary content, and to the inherent ambiguities of this content. To address this, we propose to leverage the content type within an LSTM-based architecture. Furthermore, we introduce a procedure to generate synthetic data to train this architecture without requiring expensive manual annotations. We demonstrate the effectiveness of our approach at transcribing text on a challenging, real-world dataset of European Accident Statements.