既存のほとんどのテキスト読み取りベンチマークでは、トレーニングデータの量が限られているため、大規模な語彙のより高度な深層学習モデルのパフォーマンスを評価することは困難です。この問題に対処するために、既存の中国語テキスト読み取りベンチマークの少なくとも14倍のサイズの430,000通りのストリートビュー画像を備えたChinese Street View Text(C-SVT)という名前の新しい大規模テキスト読み取りベンチマークデータセットを導入します。費用対効果の高い大規模なデータセットのラベル付けを維持しながら、野生の中国語テキストを認識するために、場所とテキストラベルのCSVTデータセットの一部(30,000画像)に完全な注釈として注釈を付け、さらに400,000の画像を追加することを提案します地域の関心テキストは弱い注釈として与えられます。弱く注釈付けされたデータから豊富な情報を活用するために、部分的に監視された学習フレームワークでテキスト読み取りネットワークを設計します。これにより、テキストをローカライズおよび認識し、完全に弱く注釈付けされたデータから同時に学習できます。弱いラベルの画像から最適なテキスト提案をローカライズするために、モデル全体に組み込まれたオンライン提案マッチングモジュールを提案し、エンドツーエンドトレーニングのパラメーターを共有してキーワード領域を見つけます。完全に監視されたトレーニングアルゴリズムと比較して、このモデルは同じラベリングコストでFスコアでエンドツーエンドの認識パフォーマンスを4.03%著しく向上させることができます。提案されたモデルは、提案された部分的に監督された学習フレームワークの有効性を示すICDAR 2017-RCTWデータセットで最新の結果を達成することもできます。
Most existing text reading benchmarks make it difficult to evaluate the performance of more advanced deep learning models in large vocabularies due to the limited amount of training data. To address this issue, we introduce a new large-scale text reading benchmark dataset named Chinese Street View Text (C-SVT) with 430,000 street view images, which is at least 14 times as large as the existing Chinese text reading benchmarks. To recognize Chinese text in the wild while keeping large-scale datasets labeling cost-effective, we propose to annotate one part of the CSVT dataset (30,000 images) in locations and text labels as full annotations and add 400,000 more images, where only the corresponding text-of-interest in the regions is given as weak annotations. To exploit the rich information from the weakly annotated data, we design a text reading network in a partially supervised learning framework, which enables to localize and recognize text, learn from fully and weakly annotated data simultaneously. To localize the best matched text proposals from weakly labeled images, we propose an online proposal matching module incorporated in the whole model, spotting the keyword regions by sharing parameters for end-to-end training. Compared with fully supervised training algorithms, this model can improve the end-to-end recognition performance remarkably by 4.03% in F-score at the same labeling cost. The proposed model can also achieve state-of-the-art results on the ICDAR 2017-RCTW dataset, which demonstrates the effectiveness of the proposed partially supervised learning framework.