arXiv reaDer
ESTextSpotter: Transformer の明示的な相乗効果により、より優れたシーン テキスト スポッティングを目指して
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer
近年、エンドツーエンドのシーン テキスト スポッティング アプローチは、Transformer ベースのフレームワークに進化しています。これまでの研究では、テキストの検出と認識の間の本質的な相乗効果が極めて重要であることが示されていますが、Transformer ベースの手法の最近の進歩では、通常、共有クエリによる暗黙的な相乗効果戦略が採用されており、これら 2 つの対話型タスクの可能性を完全には実現できません。この論文では、テキスト検出と認識の明確な特性を考慮した明示的な相乗効果により、テキスト検出のパフォーマンスが大幅に向上できると主張します。この目的を達成するために、Explicit Synergy ベースの Text Spotting Transformer フレームワーク (ESTextSpotter) という名前の新しいモデルを導入します。このモデルは、単一のデコーダ内でテキストの検出と認識のための識別機能とインタラクティブ機能をモデル化することにより、明示的な相乗効果を実現します。具体的には、従来の共有クエリをテキスト ポリゴンとコンテンツのそれぞれに対するタスク認識クエリに分解します。提案された視覚言語通信モジュールを備えたデコーダを介して、クエリはテキスト検出と認識の識別パターンを維持しながら明示的な方法で相互作用するため、パフォーマンスが大幅に向上します。さらに、安定したトレーニングを保証するために、タスクを認識したクエリ初期化スキームを提案します。実験結果は、私たちのモデルが以前の最先端の方法よりも大幅に優れていることを示しています。コードは https://github.com/mxin262/ESTextSpotter で入手できます。
In recent years, end-to-end scene text spotting approaches are evolving to the Transformer-based framework. While previous studies have shown the crucial importance of the intrinsic synergy between text detection and recognition, recent advances in Transformer-based methods usually adopt an implicit synergy strategy with shared query, which can not fully realize the potential of these two interactive tasks. In this paper, we argue that the explicit synergy considering distinct characteristics of text detection and recognition can significantly improve the performance text spotting. To this end, we introduce a new model named Explicit Synergy-based Text Spotting Transformer framework (ESTextSpotter), which achieves explicit synergy by modeling discriminative and interactive features for text detection and recognition within a single decoder. Specifically, we decompose the conventional shared query into task-aware queries for text polygon and content, respectively. Through the decoder with the proposed vision-language communication module, the queries interact with each other in an explicit manner while preserving discriminative patterns of text detection and recognition, thus improving performance significantly. Additionally, we propose a task-aware query initialization scheme to ensure stable training. Experimental results demonstrate that our model significantly outperforms previous state-of-the-art methods. Code is available at https://github.com/mxin262/ESTextSpotter.
updated: Sun Aug 20 2023 03:22:23 GMT+0000 (UTC)
published: Sun Aug 20 2023 03:22:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト