自然画像でのテキストの共同検出および認識のための統合フレームワークの開発で最近の進展がありましたが、既存の共同モデルはほとんどがROIプーリングを含む2段階のフレームワーク上に構築され、認識タスクのパフォーマンスを低下させる可能性があります。この作業では、CharNetと呼ばれる畳み込み文字ネットワークを提案します。これは、1つのパスで2つのタスクを同時に処理できる1ステージモデルです。 CharNetは、単語と文字の境界ボックスを、対応する文字ラベルとともに直接出力します。文字を基本要素として利用することで、RNNベースの認識ブランチと共同でテキスト検出を最適化しようとした既存のアプローチの主な困難を克服することができます。さらに、合成データから学習した文字検出機能を実世界の画像に変換できる反復文字検出アプローチを開発します。これらの技術的な改善により、シンプルでコンパクトでありながら強力な1ステージモデルが実現し、多方向および湾曲したテキストで確実に機能します。 3つの標準ベンチマークでCharNetを評価します。これは、ICDAR 2015で65.33%-> 71.08%(一般的なレキシコンを使用)の改善など、最先端のアプローチ[25、24]を一貫して大幅に上回るパフォーマンスを示しています。 、およびTotal-Text、エンドツーエンドのテキスト認識で54.0%-> 69.23%。コードはhttps://github.com/MalongTech/research-charnetから入手できます。
Recent progress has been made on developing a unified framework for joint text detection and recognition in natural images, but existing joint models were mostly built on two-stage framework by involving ROI pooling, which can degrade the performance on recognition task. In this work, we propose convolutional character networks, referred as CharNet, which is an one-stage model that can process two tasks simultaneously in one pass. CharNet directly outputs bounding boxes of words and characters, with corresponding character labels. We utilize character as basic element, allowing us to overcome the main difficulty of existing approaches that attempted to optimize text detection jointly with a RNN-based recognition branch. In addition, we develop an iterative character detection approach able to transform the ability of character detection learned from synthetic data to real-world images. These technical improvements result in a simple, compact, yet powerful one-stage model that works reliably on multi-orientation and curved text. We evaluate CharNet on three standard benchmarks, where it consistently outperforms the state-of-the-art approaches [25, 24] by a large margin, e.g., with improvements of 65.33%->71.08% (with generic lexicon) on ICDAR 2015, and 54.0%->69.23% on Total-Text, on end-to-end text recognition. Code is available at: https://github.com/MalongTech/research-charnet.