arXiv reaDer
PP-OCRv2:超軽量OCRシステムの秘訣のバッグ
PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System
光学式文字認識(OCR)システムは、さまざまなアプリケーションシナリオで広く使用されています。 OCRシステムの設計は依然として困難な作業です。以前の作業では、精度と効率のバランスをとるために、実用的な超軽量OCRシステム(PP-OCR)を提案しました。 PP-OCRの精度を向上させ、高効率を維持するために、本論文では、より堅牢なOCRシステム、すなわちPP-OCRv2を提案します。 Collaborative Mutual Learning(CML)、CopyPaste、Lightweight CPUNetwork(LCNet)、Unified-Deep Mutual Learning(U-DML)、Enhanced CTCLossなど、より優れたテキスト検出器とより優れたテキスト認識機能をトレーニングするための一連のトリックを紹介します。実際のデータでの実験は、PP-OCRv2の精度が同じ推論コストの下でPP-OCRより7%高いことを示しています。また、ResNetシリーズをバックボーンとして使用するPP-OCRのサーバーモデルにも匹敵します。上記のモデルはすべてオープンソースであり、コードはPaddlePaddleを搭載したGitHubリポジトリPaddleOCRで入手できます。
Optical Character Recognition (OCR) systems have been widely used in various of application scenarios. Designing an OCR system is still a challenging task. In previous work, we proposed a practical ultra lightweight OCR system (PP-OCR) to balance the accuracy against the efficiency. In order to improve the accuracy of PP-OCR and keep high efficiency, in this paper, we propose a more robust OCR system, i.e. PP-OCRv2. We introduce bag of tricks to train a better text detector and a better text recognizer, which include Collaborative Mutual Learning (CML), CopyPaste, Lightweight CPUNetwork (LCNet), Unified-Deep Mutual Learning (U-DML) and Enhanced CTCLoss. Experiments on real data show that the precision of PP-OCRv2 is 7% higher than PP-OCR under the same inference cost. It is also comparable to the server models of the PP-OCR which uses ResNet series as backbones. All of the above mentioned models are open-sourced and the code is available in the GitHub repository PaddleOCR which is powered by PaddlePaddle.
updated: Tue Sep 07 2021 15:24:40 GMT+0000 (UTC)
published: Tue Sep 07 2021 15:24:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト