シーンテキスト除去 (STR) タスクは、個人情報保護のために画像内のテキスト領域を除去し、背景をスムーズに復元することを目的としています。既存の STR 手法のほとんどは、スキップ接続に機能の直接コピーを備えた、エンコーダー デコーダー ベースの CNN を採用しています。ただし、エンコードされた特徴には、テキスト テクスチャと構造情報の両方が含まれます。テキスト特徴の利用が不十分であると、テキスト除去領域での背景再構築のパフォーマンスが妨げられます。これらの問題に取り組むために、この論文では、STR のエンコードされた特徴を再構成するための新しい特徴消去および転送 (FET) メカニズムを提案します。 FET では、特徴消去モジュール (FEM) がテキスト特徴を消去するように設計されています。注意モジュールは、特徴類似性ガイダンスの生成を担当します。機能転送モジュール (FTM) は、アテンション ガイダンスに基づいて、対応する機能をさまざまなレイヤーに転送するために導入されています。このメカニズムにより、FETNet と呼ばれる 1 段階のエンドツーエンドのトレーニング可能なネットワークがシーン テキストの削除のために構築されます。さらに、シーン テキストの削除とセグメンテーション タスクの両方の研究を促進するために、マルチカテゴリ アノテーションを備えた新しいデータセット Flickr-ST を導入します。十分な数の実験とアブレーション研究が公開データセットと Flickr-ST で実施されています。私たちが提案する方法は、ほとんどのメトリクスを使用して最先端のパフォーマンスを実現し、非常に高品質なシーン テキスト除去結果を実現します。私たちの成果のソース コードは、https://github.com/GuangtaoLyu/FETNet{https://github.com/GuangtaoLyu/FETNet から入手できます。
The scene text removal (STR) task aims to remove text regions and recover the background smoothly in images for private information protection. Most existing STR methods adopt encoder-decoder-based CNNs, with direct copies of the features in the skip connections. However, the encoded features contain both text texture and structure information. The insufficient utilization of text features hampers the performance of background reconstruction in text removal regions. To tackle these problems, we propose a novel Feature Erasing and Transferring (FET) mechanism to reconfigure the encoded features for STR in this paper. In FET, a Feature Erasing Module (FEM) is designed to erase text features. An attention module is responsible for generating the feature similarity guidance. The Feature Transferring Module (FTM) is introduced to transfer the corresponding features in different layers based on the attention guidance. With this mechanism, a one-stage, end-to-end trainable network called FETNet is constructed for scene text removal. In addition, to facilitate research on both scene text removal and segmentation tasks, we introduce a novel dataset, Flickr-ST, with multi-category annotations. A sufficient number of experiments and ablation studies are conducted on the public datasets and Flickr-ST. Our proposed method achieves state-of-the-art performance using most metrics, with remarkably higher quality scene text removal results. The source code of our work is available at: https://github.com/GuangtaoLyu/FETNet{https://github.com/GuangtaoLyu/FETNet.