劣化した画像は一般に文字画像の一般的なソースに存在し、不十分な文字認識結果につながります。既存の方法は、劣化した文字画像を復元するための専用の努力をしている。ただし、これらの方法で得られたノイズ除去の結果は、文字認識のパフォーマンスを向上させるようには見えません。これは主に、現在の方法がピクセルレベルの情報のみに焦点を当てており、グリフなどの文字の重要な機能を無視しているため、ノイズ除去プロセス中に文字のグリフが損傷するためです。この論文では、グリフの融合と注意のメカニズムに基づく新しい汎用フレームワーク、つまり、固有のグリフを変更せずに文字画像を正確に復元するためのCharFormerを紹介します。既存のフレームワークとは異なり、CharFormerは、追加情報をキャプチャして画像ノイズ除去バックボーンに注入するための並列ターゲットタスクを導入します。これにより、文字画像ノイズ除去中に文字グリフの一貫性が維持されます。さらに、グローバルとローカルの機能の相互作用に注意ベースのネットワークを利用します。これにより、ブラインドノイズ除去に対処し、ノイズ除去のパフォーマンスを向上させることができます。 CharFormerを複数のデータセットの最先端のメソッドと比較します。実験結果は、CharFormerの優位性を定量的および定性的に示しています。
Degraded images commonly exist in the general sources of character images, leading to unsatisfactory character recognition results. Existing methods have dedicated efforts to restoring degraded character images. However, the denoising results obtained by these methods do not appear to improve character recognition performance. This is mainly because current methods only focus on pixel-level information and ignore critical features of a character, such as its glyph, resulting in character-glyph damage during the denoising process. In this paper, we introduce a novel generic framework based on glyph fusion and attention mechanisms, i.e., CharFormer, for precisely recovering character images without changing their inherent glyphs. Unlike existing frameworks, CharFormer introduces a parallel target task for capturing additional information and injecting it into the image denoising backbone, which will maintain the consistency of character glyphs during character image denoising. Moreover, we utilize attention-based networks for global-local feature interaction, which will help to deal with blind denoising and enhance denoising performance. We compare CharFormer with state-of-the-art methods on multiple datasets. The experimental results show the superiority of CharFormer quantitatively and qualitatively.