シーン テキスト画像超解像度 (STISR) は、下流のシーン テキスト認識精度を向上させながら画質を向上させることを目的として、最近大きな成功を収めています。しかし、既存の手法の多くは前景(文字領域)と背景(非文字領域)を前方処理で同等に扱い、複雑な背景からの外乱を無視しているため、性能が制限されています。これらの問題に対処するために、この論文では、文字領域を明示的にモデル化し、超解像のための高レベルのテキスト固有のガイダンスを生成する新しい方法 LEMMA を提案します。文字の位置を効果的にモデル化するために、アテンション マップ シーケンスに基づいて文字領域の特徴を抽出する位置強調モジュールを提案します。さらに、双方向の視覚的意味的アライメントを実行して高品質の事前ガイダンスを生成するマルチモーダルアライメントモジュールを提案します。提案された適応融合モジュールを使用して、適応的な方法で超解像度ブランチに組み込まれます。 TextZoom と 4 つのシーンテキスト認識ベンチマークの実験により、他の最先端の方法に対する私たちの方法の優位性が実証されました。コードは https://github.com/csguoh/LEMMA で入手できます。
Scene text image super-resolution (STISR), aiming to improve image quality while boosting downstream scene text recognition accuracy, has recently achieved great success. However, most existing methods treat the foreground (character regions) and background (non-character regions) equally in the forward process, and neglect the disturbance from the complex background, thus limiting the performance. To address these issues, in this paper, we propose a novel method LEMMA that explicitly models character regions to produce high-level text-specific guidance for super-resolution. To model the location of characters effectively, we propose the location enhancement module to extract character region features based on the attention map sequence. Besides, we propose the multi-modal alignment module to perform bidirectional visual-semantic alignment to generate high-quality prior guidance, which is then incorporated into the super-resolution branch in an adaptive manner using the proposed adaptive fusion module. Experiments on TextZoom and four scene text recognition benchmarks demonstrate the superiority of our method over other state-of-the-art methods. Code is available at https://github.com/csguoh/LEMMA.