arXiv reaDer
Multi-Granularity Prediction for Scene Text Recognition
シーン テキスト認識 (STR) は、コンピューター ビジョンにおける長年の活発な研究テーマです。この困難な問題に取り組むために、多くの革新的な方法が次々と提案されており、言語知識をSTRモデルに組み込むことが最近の顕著な傾向になっています。この作業では、最初に、ViT の最近の進歩からインスピレーションを得て、概念的にシンプルでありながら強力なビジョン STR モデルを構築しました。このモデルは、ViT に基づいて構築され、シーン テキスト認識の以前の最先端モデルよりも優れています。純粋な視覚モデルと言語拡張メソッドの両方を含みます。言語知識を統合するために、言語モダリティから暗黙的な方法でモデルに情報を注入する Multi-Granularity Prediction 戦略をさらに提案します。つまり、NLP で広く使用されているサブワード表現 (BPE および WordPiece) が出力空間に導入されます。従来の文字レベル表現に加えて、独立した言語モデル (LM) は採用されていません。結果として得られるアルゴリズム (MGP-STR と呼ばれる) は、STR のパフォーマンス エンベロープをさらに高いレベルに押し上げることができます。具体的には、標準ベンチマークで平均 93.35% の認識精度を達成しています。コードは近日公開予定です。
Scene text recognition (STR) has been an active research topic in computer vision for years. To tackle this challenging problem, numerous innovative methods have been successively proposed and incorporating linguistic knowledge into STR models has recently become a prominent trend. In this work, we first draw inspiration from the recent progress in Vision Transformer (ViT) to construct a conceptually simple yet powerful vision STR model, which is built upon ViT and outperforms previous state-of-the-art models for scene text recognition, including both pure vision models and language-augmented methods. To integrate linguistic knowledge, we further propose a Multi-Granularity Prediction strategy to inject information from the language modality into the model in an implicit way, i.e. , subword representations (BPE and WordPiece) widely-used in NLP are introduced into the output space, in addition to the conventional character level representation, while no independent language model (LM) is adopted. The resultant algorithm (termed MGP-STR) is able to push the performance envelop of STR to an even higher level. Specifically, it achieves an average recognition accuracy of 93.35% on standard benchmarks. Code will be released soon.
updated: Thu Sep 08 2022 06:43:59 GMT+0000 (UTC)
published: Thu Sep 08 2022 06:43:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト