arXiv reaDer
ピクセル集約ネットワークを使用した効率的で正確な任意形状のテキスト検出
Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
シーンテキスト読み取りシステムの重要なステップであるシーンテキスト検出は、畳み込みニューラルネットワークの急速な発展を目の当たりにしています。それにもかかわらず、2つの主要な課題が依然として存在し、実際のアプリケーションへの展開を妨げています。最初の問題は、速度と精度の間のトレードオフです。 2つ目は、任意形状のテキストインスタンスをモデル化することです。最近、任意形状のテキスト検出に取り組む方法がいくつか提案されていますが、パイプライン全体の速度が考慮されることはほとんどなく、実際のアプリケーションでは不十分な場合があります。本稿では、効率的で正確な任意形状のテキストを提案します。ピクセル集約ネットワーク(PAN)と呼ばれる検出器。低計算コストのセグメンテーションヘッドと学習可能な後処理を備えています。具体的には、セグメンテーションヘッドは機能ピラミッド拡張モジュール(FPEM)と機能フュージョンモジュール(FFM)で構成されています。 FPEMはカスケード可能なU字型モジュールであり、マルチレベル情報を導入して、より適切なセグメンテーションを導くことができます。 FFMは、深さの異なるFPEMによって提供される機能を、セグメンテーションのための最終的な機能に収集できます。学習可能な後処理は、予測された類似度ベクトルによってテキストピクセルを正確に集約できるピクセル集約(PA)によって実装されます。いくつかの標準ベンチマークでの実験により、提案されたPANの優位性が検証されます。この方法では、CTW1500で84.2 FPSで79.9%の競争力のあるF値を達成できることは注目に値します。
Scene text detection, an important step of scene text reading systems, has witnessed rapid development with convolutional neural networks. Nonetheless, two main challenges still exist and hamper its deployment to real-world applications. The first problem is the trade-off between speed and accuracy. The second one is to model the arbitrary-shaped text instance. Recently, some methods have been proposed to tackle arbitrary-shaped text detection, but they rarely take the speed of the entire pipeline into consideration, which may fall short in practical applications.In this paper, we propose an efficient and accurate arbitrary-shaped text detector, termed Pixel Aggregation Network (PAN), which is equipped with a low computational-cost segmentation head and a learnable post-processing. More specifically, the segmentation head is made up of Feature Pyramid Enhancement Module (FPEM) and Feature Fusion Module (FFM). FPEM is a cascadable U-shaped module, which can introduce multi-level information to guide the better segmentation. FFM can gather the features given by the FPEMs of different depths into a final feature for segmentation. The learnable post-processing is implemented by Pixel Aggregation (PA), which can precisely aggregate text pixels by predicted similarity vectors. Experiments on several standard benchmarks validate the superiority of the proposed PAN. It is worth noting that our method can achieve a competitive F-measure of 79.9% at 84.2 FPS on CTW1500.
updated: Sun Aug 02 2020 03:38:04 GMT+0000 (UTC)
published: Fri Aug 16 2019 09:14:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト