この論文は、単語ではなく文字のシーケンスでトレーニングされた注意深いエンコーダ-デコーダネットワークを使用して、手書きテキスト認識(HTR)のタスクにアプローチします。人気のある手書きデータセットからのテキスト行を実験し、画像ピクセルとターゲット文字の位置合わせに使用される注意メカニズムのさまざまな活性化関数を比較します。ソフトマックス注意は個々の文字に重点を置いているのに対し、シグモイド注意はデコードの各ステップで複数の文字に重点を置いていることがわかります。シーケンスアラインメントが1対1の場合、softmaxアテンションは、デコードの各ステップでより正確なアラインメントを学習できますが、シグモイドアテンションによって生成されるアラインメントははるかに正確ではありません。線形関数を使用して注意の重みを取得する場合、モデルは文字のシーケンス全体を見て文字を予測しますが、ソースとターゲットの間の正確な配置が不足しているため、パフォーマンスが低下します。モデルは、画像内のテキストのセグメンテーションやバウンディングボックスを作成する必要なしに手書きのテキストを転記できるため、将来の研究では、自然のシーン画像のHTRを調査する可能性があります。
The paper approaches the task of handwritten text recognition (HTR) with attentional encoder-decoder networks trained on sequences of characters, rather than words. We experiment on lines of text from popular handwriting datasets and compare different activation functions for the attention mechanism used for aligning image pixels and target characters. We find that softmax attention focuses heavily on individual characters, while sigmoid attention focuses on multiple characters at each step of the decoding. When the sequence alignment is one-to-one, softmax attention is able to learn a more precise alignment at each step of the decoding, whereas the alignment generated by sigmoid attention is much less precise. When a linear function is used to obtain attention weights, the model predicts a character by looking at the entire sequence of characters and performs poorly because it lacks a precise alignment between the source and target. Future research may explore HTR in natural scene images, since the model is capable of transcribing handwritten text without the need for producing segmentations or bounding boxes of text in images.