ピクセルレベルの監視を伴う大規模なデータセットが存在しないことは、シーンテキストセグメンテーションのための深い畳み込みネットワークのトレーニングにとって大きな障害です。このため、通常、合成データの生成は、トレーニングデータセットを拡大するために使用されます。それにもかかわらず、合成データは、自然画像の複雑さと変動性を再現できません。このホワイトペーパーでは、弱教師付き学習アプローチを使用して、実データと合成データのトレーニング間のシフトを削減します。テキスト検出データセットのピクセルレベルの監視(つまり、バウンディングボックスアノテーションのみが使用可能な場合)が生成されます。特に、COCO-Text-segmentation(COCO_TS)データセットは、COCO-Textデータセットのピクセルレベルの監視を提供し、作成およびリリースされます。生成された注釈は、セマンティックセグメンテーションのために深い畳み込みニューラルネットワークをトレーニングするために使用されます。実験では、合成データの代わりに提案されたデータセットを使用できることを示しています。これにより、トレーニングサンプルのごく一部のみを使用して、パフォーマンスを大幅に改善できます。
The absence of large scale datasets with pixel-level supervisions is a significant obstacle for the training of deep convolutional networks for scene text segmentation. For this reason, synthetic data generation is normally employed to enlarge the training dataset. Nonetheless, synthetic data cannot reproduce the complexity and variability of natural images. In this paper, a weakly supervised learning approach is used to reduce the shift between training on real and synthetic data. Pixel-level supervisions for a text detection dataset (i.e. where only bounding-box annotations are available) are generated. In particular, the COCO-Text-Segmentation (COCO_TS) dataset, which provides pixel-level supervisions for the COCO-Text dataset, is created and released. The generated annotations are used to train a deep convolutional neural network for semantic segmentation. Experiments show that the proposed dataset can be used instead of synthetic data, allowing us to use only a fraction of the training samples and significantly improving the performances.