シーンテキスト認識は、従来の完全接続LSTM(FC-LSTM)が重要な役割を果たしてきたシーケンス間予測問題として最近広く扱われています。 FC-LSTMの制限により、既存の方法では、2次元の特徴マップを1次元の連続した特徴ベクトルに変換する必要があり、テキスト画像の貴重な空間情報および構造情報に深刻な損害を与えます。この論文では、シーンテキスト認識は本質的にその2次元画像入力の時空間予測問題であると主張し、畳み込みLSTM(ConvLSTM)ベースのシーンテキスト認識装置、つまりFACLSTM、つまりFocused Attention ConvLSTMを提案します。ピクセルの空間相関は、LSTMで逐次予測を実行するときに完全に活用されます。特に、アテンションメカニズムは畳み込み演算によって効率的なConvLSTM構造に適切に組み込まれ、適切な機能領域に注意を集中させるために追加のキャラクターセンターマスクが生成されます。ベンチマークデータセットIIIT5K、SVT、およびCUTEの実験結果は、提案されているFACLSTMが通常の低解像度でノイズの多いテキスト画像で競争力を発揮し、大きなマージンを持つ湾曲したテキストで最先端のアプローチより優れていることを示しています。
Scene text recognition has recently been widely treated as a sequence-to-sequence prediction problem, where traditional fully-connected-LSTM (FC-LSTM) has played a critical role. Due to the limitation of FC-LSTM, existing methods have to convert 2-D feature maps into 1-D sequential feature vectors, resulting in severe damages of the valuable spatial and structural information of text images. In this paper, we argue that scene text recognition is essentially a spatiotemporal prediction problem for its 2-D image inputs, and propose a convolution LSTM (ConvLSTM)-based scene text recognizer, namely, FACLSTM, i.e., Focused Attention ConvLSTM, where the spatial correlation of pixels is fully leveraged when performing sequential prediction with LSTM. Particularly, the attention mechanism is properly incorporated into an efficient ConvLSTM structure via the convolutional operations and additional character center masks are generated to help focus attention on right feature areas. The experimental results on benchmark datasets IIIT5K, SVT and CUTE demonstrate that our proposed FACLSTM performs competitively on the regular, low-resolution and noisy text images, and outperforms the state-of-the-art approaches on the curved text with large margins.