arXiv reaDer
Easter2.0:手書きテキスト認識のための畳み込みモデルの改善
Easter2.0: Improving convolutional models for handwritten text recognition
畳み込みニューラルネットワーク(CNN)は、手書きテキスト認識(HTR)のタスクで有望な結果を示していますが、パフォーマンスの点では、リカレントニューラルネットワーク(RNN)/トランスフォーマーベースのモデルにまだ遅れをとっています。この論文では、このギャップを埋めるCNNベースのアーキテクチャを提案します。私たちの作品であるEaster2.0は、1D畳み込み、バッチ正規化、ReLU、ドロップアウト、密な残差接続、スクイーズアンドエキサイテーションモジュールの複数のレイヤーで構成され、コネクショニスト時系列(CTC)損失を利用します。 Easter2.0アーキテクチャに加えて、HTR / OCRのタスクに関連するシンプルで効果的なデータ拡張手法「タイリングと破損(TACO)」を提案します。私たちの仕事は、公開されているトレーニングデータのみを使用してトレーニングすると、IAM手書きデータベースで最先端の結果を達成します。私たちの実験では、TACO拡張とSqueeze-and-Excitation(SE)がテキスト認識の精度に与える影響も示しています。さらに、Easter2.0は数ショットの学習タスクに適しており、限られた量の注釈付きデータでトレーニングした場合、Transformersを含む現在の最良の方法よりも優れていることを示しています。コードとモデルは、https://github.com/kartikgill/Easter2で入手できます。
Convolutional Neural Networks (CNN) have shown promising results for the task of Handwritten Text Recognition (HTR) but they still fall behind Recurrent Neural Networks (RNNs)/Transformer based models in terms of performance. In this paper, we propose a CNN based architecture that bridges this gap. Our work, Easter2.0, is composed of multiple layers of 1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual connection, Squeeze-and-Excitation module and make use of Connectionist Temporal Classification (CTC) loss. In addition to the Easter2.0 architecture, we propose a simple and effective data augmentation technique 'Tiling and Corruption (TACO)' relevant for the task of HTR/OCR. Our work achieves state-of-the-art results on IAM handwriting database when trained using only publicly available training data. In our experiments, we also present the impact of TACO augmentations and Squeeze-and-Excitation (SE) on text recognition accuracy. We further show that Easter2.0 is suitable for few-shot learning tasks and outperforms current best methods including Transformers when trained on limited amount of annotated data. Code and model is available at: https://github.com/kartikgill/Easter2
updated: Mon May 30 2022 06:33:15 GMT+0000 (UTC)
published: Mon May 30 2022 06:33:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト