arXiv reaDer
合成から実際の手書き単語認識のための教師なし適応
Unsupervised Adaptation for Synthetic-to-Real Handwritten Word Recognition
 手書き文字認識(HTR)は、2つの重要な困難に対処する必要があるため、依然として困難な問題です。1つは書体のばらつき、もう1つはラベル付きデータの不足です。このような問題を軽減するために、HTRシステムのトレーニングには、通常、合成データ生成とデータ拡張が使用されます。ただし、そのようなデータを使用したトレーニングでは、励みになりますが、実際の言葉ではまだ不正確です。このペーパーでは、合成フォントで完全にトレーニングされた汎用手書き単語認識機能を新しい着信ライターに向けて自動的に調整できる教師なしライター適応アプローチを提案します。 5つの異なるデータセットを使用して提案を実験的に検証し、いくつかの課題をカバーしました。(i)ドキュメントソース:紙の劣化の問題を含む可能性のある最新のサンプルと歴史的なサンプル。 (ii)異なる手書きスタイル:単一および複数の作家コレクション。 (iii)言語。異なる文字の組み合わせを含みます。これらの困難なコレクション全体で、私たちはシステムがそのパフォーマンスを維持できることを示しています。したがって、高価で面倒な手動の注釈ステップを必要とせずに、新しいドキュメントコレクションを処理するための実用的で一般的なアプローチを提供します。
Handwritten Text Recognition (HTR) is still a challenging problem because it must deal with two important difficulties: the variability among writing styles, and the scarcity of labelled data. To alleviate such problems, synthetic data generation and data augmentation are typically used to train HTR systems. However, training with such data produces encouraging but still inaccurate transcriptions in real words. In this paper, we propose an unsupervised writer adaptation approach that is able to automatically adjust a generic handwritten word recognizer, fully trained with synthetic fonts, towards a new incoming writer. We have experimentally validated our proposal using five different datasets, covering several challenges (i) the document source: modern and historic samples, which may involve paper degradation problems; (ii) different handwriting styles: single and multiple writer collections; and (iii) language, which involves different character combinations. Across these challenging collections, we show that our system is able to maintain its performance, thus, it provides a practical and generic approach to deal with new document collections without requiring any expensive and tedious manual annotation step.
updated: Tue May 26 2020 21:15:08 GMT+0000 (UTC)
published: Wed Sep 18 2019 14:32:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト