arXiv reaDer
TPSNet: 任意形状のシーン テキスト表現のための薄板スプラインの逆思考
TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation
シーンテキストの検出と認識の研究の焦点は、近年、テキストの形状表現が基本的な問題である任意の形状のテキストに移行しています。私たちの意見では、理想的な表現は、コンパクトで、完全で、効率的で、後で認識できるように再利用できる必要があります。ただし、以前の表現には、1 つまたは複数の側面で欠陥があります。薄板スプライン (TPS) 変換は、シーン テキスト認識で大きな成功を収めました。これに着想を得て、私たちはその使い方を逆に考え、任意の形状のテキスト表現の絶妙な表現としてTPSを洗練しました。 TPS 表現はコンパクトで、完全で、効率的です。予測されたTPSパラメーターを使用すると、検出されたテキスト領域を水平に近い領域に直接修正して、その後の認識を支援できます。 TPS 表現の可能性をさらに活用するために、Border Alignment Loss が提案されています。これらの設計に基づいて、テキスト スポッターに便利に拡張できるテキスト検出器 TPSNet を実装します。いくつかの公開ベンチマークの広範な評価と削除により、提案されたテキスト表現とスポッティングの方法の有効性と優位性が実証されました。特に、TPSNet は Art データセットで 4.4% (78.4% 対 74.0%) の検出 F 測定の改善を達成し、合計で 5.0% のエンドツーエンド スポッティング F 測定の改善 (78.5% 対 73.5%) を達成します。余白が大きく、飾り気のないテキスト。
The research focus of scene text detection and recognition has shifted to arbitrary shape text in recent years, where the text shape representation is a fundamental problem. An ideal representation should be compact, complete, efficient, and reusable for subsequent recognition in our opinion. However, previous representations have flaws in one or more aspects. Thin-Plate-Spline (TPS) transformation has achieved great success in scene text recognition. Inspired by this, we reversely think of its usage and sophisticatedly take TPS as an exquisite representation for arbitrary shape text representation. The TPS representation is compact, complete, and efficient. With the predicted TPS parameters, the detected text region can be directly rectified to a near-horizontal one to assist the subsequent recognition. To further exploit the potential of the TPS representation, the Border Alignment Loss is proposed. Based on these designs, we implement the text detector TPSNet, which can be extended to a text spotter conveniently. Extensive evaluation and ablation of several public benchmarks demonstrate the effectiveness and superiority of the proposed method for text representation and spotting. Particularly, TPSNet achieves the detection F-Measure improvement of 4.4% (78.4% vs. 74.0%) on Art dataset and the end-to-end spotting F-Measure improvement of 5.0% (78.5% vs. 73.5%) on Total-Text, which are large margins with no bells and whistles.
updated: Sun Sep 11 2022 16:40:39 GMT+0000 (UTC)
published: Mon Oct 25 2021 11:47:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト