シーンテキスト検出技術には多くの実用的なアプリケーションがあるため、広範な破損に関するテキスト検出モデルの堅牢性を理解することが重要です。この問題を体系的に調査するために、シーンテキスト検出モデルを評価するための2つのデータセット、ICDAR2015-C(IC15-C)とCTW1500-C(CTW-C)を提案します。私たちの研究は、提案された領域提案、回帰、およびセグメンテーションベースのシーンテキスト検出フレームワークのパフォーマンスと堅牢性の調査を拡張します。さらに、事前トレーニングデータ、バックボーン、特徴融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの主要コンポーネントの堅牢性分析を実行します。最後に、背景と前景をマージすることでテキスト領域の滑らかさを破壊する、シンプルでありながら効果的なデータベースの方法を紹介します。これにより、さまざまなテキスト検出ネットワークの堅牢性を大幅に向上させることができます。この研究が、将来の研究のための有効なデータポイントと経験を提供することを願っています。ベンチマーク、コード、データはhttps://github.com/wushilian/robust-scene-text-detection-benchmarkで入手できます。
It is crucial to understand the robustness of text detection models with regard to extensive corruptions, since scene text detection techniques have many practical applications. For systematically exploring this problem, we propose two datasets from which to evaluate scene text detection models: ICDAR2015-C (IC15-C) and CTW1500-C (CTW-C). Our study extends the investigation of the performance and robustness of the proposed region proposal, regression and segmentation-based scene text detection frameworks. Furthermore, we perform a robustness analysis of six key components: pre-training data, backbone, feature fusion module, multi-scale predictions, representation of text instances and loss function. Finally, we present a simple yet effective data-based method to destroy the smoothness of text regions by merging background and foreground, which can significantly increase the robustness of different text detection networks. We hope that this study will provide valid data points as well as experience for future research. Benchmark, code and data will be made available at https://github.com/wushilian/robust-scene-text-detection-benchmark.