arXiv reaDer
任意の形のシーンテキスト検出のための包括的な研究
Comprehensive Studies for Arbitrary-shape Scene Text Detection
近年、数多くのシーンテキスト検出方法が提案されています。それらのほとんどは、最先端のパフォーマンスを達成したと宣言しています。ただし、設定に一貫性がないため、パフォーマンスの比較は不公平です(たとえば、トレーニングデータ、バックボーンネットワーク、マルチスケール機能の融合、評価プロトコルなど)。これらのさまざまな設定は、提案されたコア手法の長所と短所とは異なります。この論文では、一貫性のない設定を注意深く調べて分析し、ボトムアップベースのシーンテキスト検出方法のための統一されたフレームワークを提案します。統一されたフレームワークの下で、非コアモジュールの一貫した設定を保証し、主に任意の形状のシーンテキストを記述する表現を調査します。たとえば、テキストの輪郭上の回帰点、予測された補助情報を使用したピクセルのクラスタリング、学習したリンケージを使用した連結成分のグループ化などです。包括的な調査と入念な分析により、既存の方法間のパフォーマンスの違いを理解する際の障害を取り除くだけでなく、公正な比較の下で以前のモデルの長所と短所を明らかにします。
Numerous scene text detection methods have been proposed in recent years. Most of them declare they have achieved state-of-the-art performances. However, the performance comparison is unfair, due to lots of inconsistent settings (e.g., training data, backbone network, multi-scale feature fusion, evaluation protocols, etc.). These various settings would dissemble the pros and cons of the proposed core techniques. In this paper, we carefully examine and analyze the inconsistent settings, and propose a unified framework for the bottom-up based scene text detection methods. Under the unified framework, we ensure the consistent settings for non-core modules, and mainly investigate the representations of describing arbitrary-shape scene texts, e.g., regressing points on text contours, clustering pixels with predicted auxiliary information, grouping connected components with learned linkages, etc. With the comprehensive investigations and elaborate analyses, it not only cleans up the obstacle of understanding the performance differences between existing methods but also reveals the advantages and disadvantages of previous models under fair comparisons.
updated: Sun Jul 25 2021 13:18:55 GMT+0000 (UTC)
published: Sun Jul 25 2021 13:18:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト