arXiv reaDer
最適なボックス:強化学習を介して注釈付きバウンディングボックスを調整することにより、エンドツーエンドのシーンテキスト認識を強化します
Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning
テキストの検出と認識は、最新のOCRシステムの重要なコンポーネントです。ほとんどのOCRアプローチは、テキスト認識段階の入力として使用される検出段階で、テキストの正確なバウンディングボックスを取得しようとします。タイトなテキスト境界ボックスを入力として使用する場合、境界ボックスとテキスト認識の深い表現との間の不整合のために、テキスト認識機能が最適なパフォーマンスを達成できないことがよくあります。本論文では、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整するための強化学習ベースの方法であるボックスアジャスターを提案します。さらに、合成から実数へのようなクロスドメインの問題を処理する場合、提案された方法は、ソースドメインとターゲットドメイン間のドメイン分布の不一致を大幅に削減します。実験は、調整されたバウンディングボックスをトレーニングのグラウンドトゥルースとして使用すると、エンドツーエンドのテキスト認識システムのパフォーマンスを向上できることを示しています。具体的には、シーンテキストを理解するためのいくつかのベンチマークデータセットで、提案された方法は、エンドツーエンドのテキスト認識タスクで平均2.0%Fスコア、ドメインで4.6%Fスコアだけ最先端のテキストスポッターを上回っています。適応タスク。
Text detection and recognition are essential components of a modern OCR system. Most OCR approaches attempt to obtain accurate bounding boxes of text at the detection stage, which is used as the input of the text recognition stage. We observe that when using tight text bounding boxes as input, a text recognizer frequently fails to achieve optimal performance due to the inconsistency between bounding boxes and deep representations of text recognition. In this paper, we propose Box Adjuster, a reinforcement learning-based method for adjusting the shape of each text bounding box to make it more compatible with text recognition models. Additionally, when dealing with cross-domain problems such as synthetic-to-real, the proposed method significantly reduces mismatches in domain distribution between the source and target domains. Experiments demonstrate that the performance of end-to-end text recognition systems can be improved when using the adjusted bounding boxes as the ground truths for training. Specifically, on several benchmark datasets for scene text understanding, the proposed method outperforms state-of-the-art text spotters by an average of 2.0% F-Score on end-to-end text recognition tasks and 4.6% F-Score on domain adaptation tasks.
updated: Mon Jul 25 2022 06:58:45 GMT+0000 (UTC)
published: Mon Jul 25 2022 06:58:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト