シーンテキスト認識は非常に困難な問題であり、さまざまな用途があるため、特定の研究関心を集めています。最も最先端の方法は、入力画像と出力シーケンス間のアライメントを学習する注意深いエンコーダーデコーダーフレームワークです。特に、デコーダーは、前のステップの予測をタイムステップごとのガイダンスとして使用して、予測を繰り返し出力します。この研究では、既存の注意メカニズムで以前の予測を不適切に使用すると、認識パフォーマンスが制限され、不安定になることが指摘されています。この問題を処理するために、新しいモジュール、つまり適応型埋め込みゲート(AEG)を提案します。提案されたAEGは、隣接する文字間の情報伝達を制御することにより、高次文字言語モデルを注意メカニズムに導入することに焦点を当てています。 AEGは柔軟なモジュールであり、最新の注意方法に簡単に統合できます。 IIIT $ 5 $ K、SVT、SVT-P、CUTE $ 80 $、およびICDARデータセットを含む多くの標準ベンチマークで、その有効性と堅牢性を評価します。実験結果は、AEGが認識パフォーマンスを大幅に向上させ、堅牢性を向上させることを示しています。
Scene text recognition has attracted particular research interest because it is a very challenging problem and has various applications. The most cutting-edge methods are attentional encoder-decoder frameworks that learn the alignment between the input image and output sequences. In particular, the decoder recurrently outputs predictions, using the prediction of the previous step as a guidance for every time step. In this study, we point out that the inappropriate use of previous predictions in existing attention mechanisms restricts the recognition performance and brings instability. To handle this problem, we propose a novel module, namely adaptive embedding gate(AEG). The proposed AEG focuses on introducing high-order character language models to attention mechanism by controlling the information transmission between adjacent characters. AEG is a flexible module and can be easily integrated into the state-of-the-art attentional methods. We evaluate its effectiveness as well as robustness on a number of standard benchmarks, including the IIIT$5$K, SVT, SVT-P, CUTE$80$, and ICDAR datasets. Experimental results demonstrate that AEG can significantly boost recognition performance and bring better robustness.