arXiv reaDer
テキストゲシュタルト:ストロークを意識したシーンテキスト画像超解像
Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution
過去10年間で、ディープラーニングの開花により、シーンテキスト認識の急速な発展が見られました。ただし、低解像度のシーンテキスト画像の認識は依然として課題です。この問題に取り組むためにいくつかの超解像法が提案されていますが、それらは通常、ストロークの視覚的品質(テキストの原子単位)がテキスト認識に不可欠な役割を果たすという事実を無視して、テキスト画像を一般的な画像として扱います。ゲシュタルト心理学によれば、人間は事前の知識に基づいて細部の一部を最も類似したオブジェクトに構成することができます。同様に、人間が低解像度のテキスト画像を観察する場合、本質的に部分的なストロークレベルの詳細を使用して、全体的な文字の外観を復元します。ゲシュタルト心理学に触発されて、私たちは、テキスト画像の文字のストロークレベルの内部構造に集中するために、ストロークに焦点を当てたモジュール(SFM)を含むストローク認識シーンテキスト画像超解像法を提案しました。具体的には、ストロークレベルで英語の文字と数字を分解するためのルールを設計し、生成された超解像画像との間の一貫性を制御する目的で、位置の手がかりとしてストロークレベルの注意マップを提供するようにテキスト認識機能を事前トレーニングします。高解像度のグラウンドトゥルース。広範な実験結果は、提案された方法が実際にTextZoomおよび手動で構築された漢字データセットDegraded-IC13でより識別可能な画像を生成できることを検証します。さらに、提案されたSFMは、トレーニング時にストロークレベルのガイダンスを提供するためにのみ使用されるため、テストフェーズ中に時間のオーバーヘッドをもたらすことはありません。コードはhttps://github.com/FudanVI/FudanOCR/tree/main/text-gestaltで入手できます。
In the last decade, the blossom of deep learning has witnessed the rapid development of scene text recognition. However, the recognition of low-resolution scene text images remains a challenge. Even though some super-resolution methods have been proposed to tackle this problem, they usually treat text images as general images while ignoring the fact that the visual quality of strokes (the atomic unit of text) plays an essential role for text recognition. According to Gestalt Psychology, humans are capable of composing parts of details into the most similar objects guided by prior knowledge. Likewise, when humans observe a low-resolution text image, they will inherently use partial stroke-level details to recover the appearance of holistic characters. Inspired by Gestalt Psychology, we put forward a Stroke-Aware Scene Text Image Super-Resolution method containing a Stroke-Focused Module (SFM) to concentrate on stroke-level internal structures of characters in text images. Specifically, we attempt to design rules for decomposing English characters and digits at stroke-level, then pre-train a text recognizer to provide stroke-level attention maps as positional clues with the purpose of controlling the consistency between the generated super-resolution image and high-resolution ground truth. The extensive experimental results validate that the proposed method can indeed generate more distinguishable images on TextZoom and manually constructed Chinese character dataset Degraded-IC13. Furthermore, since the proposed SFM is only used to provide stroke-level guidance when training, it will not bring any time overhead during the test phase. Code is available at https://github.com/FudanVI/FudanOCR/tree/main/text-gestalt.
updated: Mon Dec 13 2021 15:26:10 GMT+0000 (UTC)
published: Mon Dec 13 2021 15:26:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト