arXiv reaDer
ラベルからプロトタイプへの学習によるオープンセットテキスト認識に向けて
Towards Open-Set Text Recognition via Label-to-Prototype Learning
シーンテキスト認識は人気のあるトピックであり、業界で広く使用されています。多くの方法は、クローズセットのテキスト認識の課題に対して十分なパフォーマンスを達成していますが、これらの方法は、データの収集や新しい文字のモデルの再トレーニングに費用がかかりすぎるオープンセットのシナリオでは実現可能性を失います。たとえば、外国語のサンプルに注釈を付けると費用がかかる可能性がありますが、歴史的文書から「新しい」文字が発見されるたびにモデルを再トレーニングすると、時間とリソースもかかります。この論文では、新しいタスク、つまり、再トレーニングなしで新しい文字を見つけて認識する機能を必要とするオープンセットテキスト認識タスクを紹介して定式化します。ここでは、提案されたタスクの新しい要件を満たすラベルからプロトタイプへの学習フレームワークを提案します。具体的には、新しいキャラクターは、Label-to-PrototypeLearningモジュールを使用して対応するプロトタイプにマッピングされます。モジュールは、表示されたラベルでトレーニングされ、再トレーニングせずに新しいキャラクターのクラスセンターを生成するための一般化機能を保持します。フレームワークは、設定されていない文字に対して拒否機能も実装します。これにより、評価プロセス中に不明な文字を見つけることができます。広範な実験は、私たちの方法がさまざまなゼロショット、クローズセット、およびオープンセットのテキスト認識データセットで有望なパフォーマンスを達成することを示しています。
Scene text recognition is a popular topic and extensively used in the industry. Although many methods have achieved satisfactory performance for the close-set text recognition challenges, these methods lose feasibility in open-set scenarios, where collecting data or retraining models for novel characters is too expensive. E.g., annotating samples for foreign languages can be expensive, whereas retraining the model each time a "novel" character is discovered from historical documents also costs time and resources. In this paper, we introduce and formulate a new task, i.e., the open-set text recognition task, which demands the capability to spot and cognize novel characters without retraining. Here, we propose a label-to-prototype learning framework that fulfills the new requirements in the proposed task. Specifically, novel characters are mapped to their corresponding prototypes with a Label-to-Prototype Learning module. The module is trained on seen labels and holds generalization capability for generating class centers for novel characters without retraining. The framework also implements rejection capability over out-of-set characters, which allows spotting unknown characters during the evaluation process. Extensive experiments show that our method achieves promising performance on a variety of zero-shot, close-set, and open-set text recognition datasets.
updated: Sat Apr 09 2022 06:23:47 GMT+0000 (UTC)
published: Thu Mar 10 2022 06:22:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト