arXiv reaDer
自己監視によるプログレッシブシーンテキスト消去
Progressive Scene Text Erasing with Self-Supervision
シーンテキスト消去は、シーン画像からテキストコンテンツを消去することを目的としており、現在の最先端のテキスト消去モデルは、大規模な合成データでトレーニングされています。データ合成エンジンは、注釈付きのトレーニングサンプルを大量に提供できますが、合成データと実際のデータには違いがあります。この論文では、ラベルのない実世界のシーンテキスト画像の特徴表現に自己監視を採用しています。新しい口実タスクは、画像バリアントのテキストストロークマスク間で一貫性を保つように設計されています。残りのテキストを削除するために、プログレッシブ消去ネットワークを設計します。シーンテキストは、後続の高品質の結果の基盤を提供する中間生成結果を活用することにより、段階的に消去されます。実験は、私たちの方法がテキスト消去タスクの一般化を大幅に改善し、公開ベンチマークで最先端のパフォーマンスを達成することを示しています。
Scene text erasing seeks to erase text contents from scene images and current state-of-the-art text erasing models are trained on large-scale synthetic data. Although data synthetic engines can provide vast amounts of annotated training samples, there are differences between synthetic and real-world data. In this paper, we employ self-supervision for feature representation on unlabeled real-world scene text images. A novel pretext task is designed to keep consistent among text stroke masks of image variants. We design the Progressive Erasing Network in order to remove residual texts. The scene text is erased progressively by leveraging the intermediate generated results which provide the foundation for subsequent higher quality results. Experiments show that our method significantly improves the generalization of the text erasing task and achieves state-of-the-art performance on public benchmarks.
updated: Sat Jul 23 2022 09:05:13 GMT+0000 (UTC)
published: Sat Jul 23 2022 09:05:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト