エンドツーエンドのトレーニング方法でテキスト検出とテキスト認識を統合することは、これらの2つのタスクが非常に関連性が高く、補完的であるため、野生でテキストを読むための新しい傾向になりました。本論文では、自然画像における同時テキスト検出と同時認識を目的としたシーンテキストスポッティングの問題を調査します。 Mask TextSpotterという名前の、エンドツーエンドのトレーニング可能なニューラルネットワークが表示されます。 Mask TextSpotterは、提案生成ネットワークとシーケンスからシーケンスへの認識ネットワークで構成されるパイプラインに従う以前のテキストスポッターとは異なり、検出と認識の両方を達成できるシンプルでスムーズなエンドツーエンドの学習手順を楽しんでいます。セマンティックセグメンテーションを介して2次元空間から直接。さらに、パフォーマンスと普遍性を強化するために、空間的注意モジュールが提案されています。検出と認識の両方で提案されている2次元表現の利点を活用して、不規則な形状のテキストインスタンス、たとえば湾曲したテキストを簡単に処理します。 4つの英語データセットと1つの多言語データセットで評価し、検出およびエンドツーエンドのテキスト認識タスクの両方で、最先端の方法よりも一貫して優れたパフォーマンスを達成します。さらに、我々はさらに、本手法の認識モジュールを個別に調査します。この認識モジュールは、シーンテキスト認識用の通常および不規則テキストデータセットの両方で最先端の手法よりも大幅に優れています。
Unifying text detection and text recognition in an end-to-end training fashion has become a new trend for reading text in the wild, as these two tasks are highly relevant and complementary. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network named as Mask TextSpotter is presented. Different from the previous text spotters that follow the pipeline consisting of a proposal generation network and a sequence-to-sequence recognition network, Mask TextSpotter enjoys a simple and smooth end-to-end learning procedure, in which both detection and recognition can be achieved directly from two-dimensional space via semantic segmentation. Further, a spatial attention module is proposed to enhance the performance and universality. Benefiting from the proposed two-dimensional representation on both detection and recognition, it easily handles text instances of irregular shapes, for instance, curved text. We evaluate it on four English datasets and one multi-language dataset, achieving consistently superior performance over state-of-the-art methods in both detection and end-to-end text recognition tasks. Moreover, we further investigate the recognition module of our method separately, which significantly outperforms state-of-the-art methods on both regular and irregular text datasets for scene text recognition.