Scene Text Recognition with Temporal Convolutional Encoder
 シーン画像のテキストは通常、いくつかの文字で構成され、特徴的なシーケンス構造を示します。既存のメソッドは、視覚的な表現を得るためにエンコーダーによってシーケンス間モデルを使用して構造をキャプチャし、次にデコーダーによって機能をラベルシーケンスに変換します。この論文では、エンコーダー段階での長期的な時間依存性を考慮することにより、テキスト認識フレームワークを研究します。シーケンシャルエクステントが増加した提案された時間的畳み込みエンコーダにより、テキスト認識の精度が向上することを示します。また、正確なテキスト表現を学習するために、畳み込みブロック内のさまざまな注意モジュールの影響を調べます。 7つのデータセットで比較を行い、実験は提案されたアプローチの有効性を示しています。
Texts from scene images typically consist of several characters and exhibit a characteristic sequence structure. Existing methods capture the structure with the sequence-to-sequence models by an encoder to have the visual representations and then a decoder to translate the features into the label sequence. In this paper, we study text recognition framework by considering the long-term temporal dependencies in the encoder stage. We demonstrate that the proposed Temporal Convolutional Encoder with increased sequential extents improves the accuracy of text recognition. We also study the impact of different attention modules in convolutional blocks for learning accurate text representations. We conduct comparisons on seven datasets and the experiments demonstrate the effectiveness of our proposed approach.
updated: Sun Feb 16 2020 05:32:08 GMT+0000 (UTC)
published: Mon Nov 04 2019 07:10:11 GMT+0000 (UTC)
