ABCNet v2:リアルタイムのエンドツーエンドテキストスポッティングのための適応ベジェ曲線ネットワーク
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting
検出と認識を統合されたフレームワークに統合することを目的としたエンドツーエンドのテキストスポッティングは、2つの補完的なタスクが単純であるため、ますます注目を集めています。特に任意の形状のテキストインスタンスを処理する場合、これは未解決の問題のままです。以前の方法は、文字ベースとセグメンテーションベースの2つのグループに大まかに分類できます。これらは、構造化されていない出力のために、文字レベルの注釈や複雑な後処理を必要とすることがよくあります。ここでは、Adaptive Bezier Curve Network v2(ABCNet v2)を紹介することにより、エンドツーエンドのテキストスポッティングに取り組んでいます。私たちの主な貢献は4つあります。1)初めて、パラメータ化されたベジェ曲線によって任意の形状のテキストを適応的に適合させます。これは、セグメンテーションベースの方法と比較して、構造化された出力だけでなく、制御可能な表現も提供できます。 2)任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出するための新しいBezierAlignレイヤーを設計し、以前の方法よりも認識の精度を大幅に向上させます。 3)複雑な後処理と敏感なハイパーパラメータに悩まされることが多い以前の方法とは異なり、ABCNet v2は、後処理の非最大抑制(NMS)のみを備えた単純なパイプラインを維持します。 4)テキスト認識のパフォーマンスは特徴の配置に密接に依存するため、ABCNet v2はさらに、畳み込みフィルターの位置をエンコードするためにシンプルで効果的な座標畳み込みを採用します。これにより、計算のオーバーヘッドが無視できるほど大幅に改善されます。さまざまなバイリンガル(英語と中国語)のベンチマークデータセットで実施された包括的な実験は、ABCNetv2が非常に高い効率を維持しながら最先端のパフォーマンスを達成できることを示しています。
End-to-end text-spotting, which aims to integrate detection and recognition in a unified framework, has attracted increasing attention due to its simplicity of the two complimentary tasks. It remains an open problem especially when processing arbitrarily-shaped text instances. Previous methods can be roughly categorized into two groups: character-based and segmentation-based, which often require character-level annotations and/or complex post-processing due to the unstructured output. Here, we tackle end-to-end text spotting by presenting Adaptive Bezier Curve Network v2 (ABCNet v2). Our main contributions are four-fold: 1) For the first time, we adaptively fit arbitrarily-shaped text by a parameterized Bezier curve, which, compared with segmentation-based methods, can not only provide structured output but also controllable representation. 2) We design a novel BezierAlign layer for extracting accurate convolution features of a text instance of arbitrary shapes, significantly improving the precision of recognition over previous methods. 3) Different from previous methods, which often suffer from complex post-processing and sensitive hyper-parameters, our ABCNet v2 maintains a simple pipeline with the only post-processing non-maximum suppression (NMS). 4) As the performance of text recognition closely depends on feature alignment, ABCNet v2 further adopts a simple yet effective coordinate convolution to encode the position of the convolutional filters, which leads to a considerable improvement with negligible computation overhead. Comprehensive experiments conducted on various bilingual (English and Chinese) benchmark datasets demonstrate that ABCNet v2 can achieve state-of-the-art performance while maintaining very high efficiency.
updated: Tue Jul 20 2021 05:07:58 GMT+0000 (UTC)
published: Sat May 08 2021 07:46:55 GMT+0000 (UTC)
