オープンセットのテキスト認識タスクは、評価中に新しい文字を認識するための追加機能を必要とする新たな課題です。現在の方法のパフォーマンスが制限されている主な原因は、個々のキャラクターの視覚情報に対するコンテキスト情報の交絡効果であると主張します。オープンセットのシナリオでは、コンテキスト情報の扱いにくいバイアスが視覚情報に受け継がれる可能性があり、その結果、分類のパフォーマンスが低下します。本論文では、文脈情報と文字視覚情報を分離することにより、この問題を軽減するために文字コンテキストデカップリングフレームワークを提案した。文脈情報は、時間情報と言語情報に分解することができます。ここでは、文字の順序と単語の長さをモデル化する時間情報が、分離された時間的注意モジュールで分離されています。 n-gramおよびその他の言語統計をモデル化する言語情報は、分離されたコンテキストアンカーメカニズムで分離されます。さまざまな定量的および定性的実験は、私たちの方法が開集合、ゼロショット、および閉集合のテキスト認識データセットで有望なパフォーマンスを達成することを示しています。
The open-set text recognition task is an emerging challenge that requires an extra capability to cognize novel characters during evaluation. We argue that a major cause of the limited performance for current methods is the confounding effect of contextual information over the visual information of individual characters. Under open-set scenarios, the intractable bias in contextual information can be passed down to visual information, consequently impairing the classification performance. In this paper, a Character-Context Decoupling framework is proposed to alleviate this problem by separating contextual information and character-visual information. Contextual information can be decomposed into temporal information and linguistic information. Here, temporal information that models character order and word length is isolated with a detached temporal attention module. Linguistic information that models n-gram and other linguistic statistics is separated with a decoupled context anchor mechanism. A variety of quantitative and qualitative experiments show that our method achieves promising performance on open-set, zero-shot, and close-set text recognition datasets.