arXiv reaDer
シーンテキスト認識に関する分類の視点の再考
Revisiting Classification Perspective on Scene Text Recognition
シーンテキスト認識の一般的な視点は、シーケンスからシーケンス(seq2seq)およびセグメンテーションです。それにもかかわらず、前者は実装と展開を複雑にする多くのコンポーネントで構成されていますが、後者は高価な文字レベルの注釈を必要とします。本論文では、画像分類問題としてシーンテキスト認識をモデル化する分類の視点を再検討する。分類パースペクティブには単純なパイプラインがあり、単語レベルの注釈のみが必要です。 CSTRという名前のシーンテキスト認識モデルを考案することにより、分類の観点を復活させます。これは、他の観点からの方法と同様に機能します。 CSTRモデルは、CPNet(分類パースペクティブネットワーク)とSPPN(グローバル平均プーリング予測ネットワークとの分離されたコンバージョン)で構成されます。 CSTRは、ResNet he2016deepのような画像分類モデルと同じくらいシンプルで、実装と展開が簡単です。広範な実験により、シーンテキスト認識に対する分類パースペクティブの有効性を示します。さらに、CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークでほぼ最先端のパフォーマンスを実現します。コードはhttps://github.com/Media-Smart/vedastrで入手できます。
The prevalent perspectives of scene text recognition are from sequence to sequence (seq2seq) and segmentation. Nevertheless, the former is composed of many components which makes implementation and deployment complicated, while the latter requires character level annotations that is expensive. In this paper, we revisit classification perspective that models scene text recognition as an image classification problem. Classification perspective has a simple pipeline and only needs word level annotations. We revive classification perspective by devising a scene text recognition model named as CSTR, which performs as well as methods from other perspectives. The CSTR model consists of CPNet (classification perspective network) and SPPN (separated conv with global average pooling prediction network). CSTR is as simple as image classification model like ResNet he2016deep which makes it easy to implement and deploy. We demonstrate the effectiveness of the classification perspective on scene text recognition with extensive experiments. Futhermore, CSTR achieves nearly state-of-the-art performance on six public benchmarks including regular text, irregular text. The code will be available at https://github.com/Media-Smart/vedastr.
updated: Tue Apr 06 2021 10:08:59 GMT+0000 (UTC)
published: Mon Feb 22 2021 10:32:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト