エンド ツー エンドのシーン テキスト スポッティングは、テキスト検出と認識の間の本質的な相乗効果により、大幅な進歩を遂げました。以前の方法では、一般に、水平の長方形、回転した長方形、四角形、多角形などの手動注釈が前提条件と見なされ、単一点を使用するよりもはるかにコストがかかります。 SPTS v2 と呼ばれる、提案されたフレームワークによる非常に低コストのシングルポイント アノテーションを使用して、トレーニング シーンのテキスト スポッティング モデルを実現できることを初めて実証しました。 SPTS v2 は、同じ予測シーケンス内のすべてのテキスト インスタンスの中心点を順次予測することでインスタンス割り当てデコーダー (IAD) を使用する自己回帰トランスフォーマーの利点を確保し、同時にテキスト認識用の並列認識デコーダー (PRD) を使用します。これらの 2 つのデコーダーは同じパラメーターを共有し、勾配と情報を渡すための単純だが効果的な情報伝送プロセスと対話的に接続されます。さまざまな既存のベンチマーク データセットでの包括的な実験では、SPTS v2 が以前の最先端のシングルポイント テキスト スポッターよりも少ないパラメーターで優れたパフォーマンスを発揮し、14 倍の高速な推論速度を達成できることが実証されています。最も重要なことは、SPTS v2 の範囲内で、広範な実験により、非ポイント、長方形の境界ボックス、および多角形の境界ボックスと比較して、単一ポイントがシーン テキスト スポッティングの最適な設定として機能するという重要な現象がさらに明らかになったことです。このような試みは、既存のパラダイムの領域を超えたシーン テキスト スポッティング アプリケーションに重要な機会を提供します。コードは https://github.com/shannanyinxiang/SPTS で入手できます。
End-to-end scene text spotting has made significant progress due to its intrinsic synergy between text detection and recognition. Previous methods commonly regard manual annotations such as horizontal rectangles, rotated rectangles, quadrangles,and polygons as a prerequisite, which are much more expensive than using single-point. For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost single-point annotation by the proposed framework, termed SPTS v2. SPTS v2 reserves the advantage of the auto-regressive Transformer with an Instance Assignment Decoder (IAD) through sequentially predicting the center points of all text instances inside the same predicting sequence, while with a Parallel Recognition Decoder (PRD) for text recognition in parallel. These two decoders share the same parameters and are interactively connected with a simple but effective information transmission process to pass the gradient and information. Comprehensive experiments on various existing benchmark datasets demonstrate the SPTS v2 can outperform previous state-of-the-art single-point text spotters with fewer parameters while achieving 14x faster inference speed. Most importantly, within the scope of our SPTS v2, extensive experiments further reveal an important phenomenon that single-point serves as the optimal setting for the scene text spotting compared to non-point, rectangular bounding box, and polygonal bounding box. Such an attempt provides a significant opportunity for scene text spotting applications beyond the realms of existing paradigms. Code is available at https://github.com/shannanyinxiang/SPTS.