自然画像のテキスト領域を妥当なコンテンツに置き換えるシーンテキスト消去は、近年、コンピュータビジョンコミュニティで大きな注目を集めています。シーンテキストの消去には、テキスト検出と画像修復という2つの潜在的なサブタスクがあります。どちらのサブタスクも、パフォーマンスを向上させるためにかなりのデータを必要とします。ただし、大規模な実世界のシーンテキスト除去データセットがないため、既存の方法でその可能性を実現することはできません。ペアワイズ実世界データの不足を補うために、追加の拡張後に合成テキストをかなり活用し、その後、改良された合成テキストエンジンによって生成されたデータセットのみでモデルをトレーニングしました。提案するネットワークには、ストロークマスク予測モジュールと背景修復モジュールが含まれています。これらのモジュールは、トリミングされたテキスト画像から比較的小さな穴としてテキストストロークを抽出し、より多くの背景コンテンツを維持して、より良い修復結果を得ることができます。このモデルは、バウンディングボックスを使用してシーン画像内のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器を使用してシーンテキストを自動消去したりできます。 SCUT-Syn、ICDAR2013、およびSCUT-EnsTextデータセットの定性的および定量的評価の実験結果は、実際のデータでトレーニングした場合でも、既存の最先端のメソッドを大幅に上回っていることを示しています。
Scene text erasing, which replaces text regions with reasonable content in natural images, has drawn significant attention in the computer vision community in recent years. There are two potential subtasks in scene text erasing: text detection and image inpainting. Both subtasks require considerable data to achieve better performance; however, the lack of a large-scale real-world scene-text removal dataset does not allow existing methods to realize their potential. To compensate for the lack of pairwise real-world data, we made considerable use of synthetic text after additional enhancement and subsequently trained our model only on the dataset generated by the improved synthetic text engine. Our proposed network contains a stroke mask prediction module and background inpainting module that can extract the text stroke as a relatively small hole from the cropped text image to maintain more background content for better inpainting results. This model can partially erase text instances in a scene image with a bounding box or work with an existing scene-text detector for automatic scene text erasing. The experimental results from the qualitative and quantitative evaluation on the SCUT-Syn, ICDAR2013, and SCUT-EnsText datasets demonstrate that our method significantly outperforms existing state-of-the-art methods even when they are trained on real-world data.