テキスト領域を自然画像の妥当なコンテンツに置き換えるシーンテキスト消去は、近年、コンピュータビジョンコミュニティで大きな注目を集めています。シーンテキストの消去には、テキスト検出と画像修復という2つの潜在的なサブタスクがあります。どちらのサブタスクでも、パフォーマンスを向上させるにはかなりのデータが必要です。ただし、大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドをその可能性に応じて機能させることはできません。ペアワイズ実世界データの不足の制限を回避するために、合成テキストを拡張してかなり活用し、その後、改良された合成テキストエンジンによって生成されたデータセットでのみモデルをトレーニングします。提案されたネットワークには、ストロークマスク予測モジュールと背景修復モジュールが含まれています。これらのモジュールは、トリミングされたテキスト画像から比較的小さな穴としてテキストストロークを抽出し、より多くの背景コンテンツを維持して、より良い修復結果を得ることができます。このモデルは、バウンディングボックスを使用してシーン画像内のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器を使用してシーンテキストを自動消去したりできます。 SCUT-Syn、ICDAR2013、およびSCUT-EnsTextデータセットの定性的および定量的評価からの実験結果は、実際のデータでトレーニングされた場合でも、私たちの方法が既存の最先端の方法を大幅に上回っていることを示しています。
Scene text erasing, which replaces text regions with reasonable content in natural images, has drawn significant attention in the computer vision community in recent years. There are two potential subtasks in scene text erasing: text detection and image inpainting. Either subtask requires considerable data to achieve better performance; however, the lack of a large-scale real-world scene-text removal dataset does not allow existing methods to work according to their potential. To avoid the limitation of the lack of pairwise real-world data, we enhance and make considerable use of the synthetic text and subsequently train our model only on the dataset generated by the improved synthetic text engine. Our proposed network contains a stroke mask prediction module and background inpainting module that can extract the text stroke as a relatively small hole from the cropped text image to maintain more background content for better inpainting results. This model can partially erase text instances in a scene image with a bounding box or work with an existing scene-text detector for automatic scene text erasing. The experimental results from the qualitative and quantitative evaluation of the SCUT-Syn, ICDAR2013, and SCUT-EnsText datasets demonstrate that our method significantly outperforms existing state-of-the-art methods even when they were trained on real-world data.