実際のテキスト検出は、複数のスクリプトを処理する際にさらに困難になるよく知られた問題です。過去 10 年間で、いくつかのスクリプトが研究コミュニティの注目を集め、優れた検出パフォーマンスを達成しました。ただし、多くのスクリプトは、深層学習ベースのシーン テキスト検出器をトレーニングするためのリソースが不足しています。新しいスクリプトに対して個別のトレーニングが必要か?という重要な疑問が生じます。これは、シーン テキスト検出の分野では未踏のクエリです。このペーパーでは、この問題を認識し、トレーニング中に存在しないスクリプトを検出するための解決策を提案します。この研究では、クロススクリプト テキスト検出を理解するために分析が実行されました。つまり、1 つでトレーニングされ、もう 1 つでテストされました。クロススクリプトテキスト検出を改善するには、テキスト注釈の同一の性質 (単語レベル/行レベル) が重要であることがわかりました。スクリプト間でテキスト注釈の性質が異なるため、クロススクリプトテキスト検出のパフォーマンスが低下します。さらに、目に見えないスクリプトの検出のために、提案されたソリューションはベクトル埋め込みを利用して、スクリプトのカテゴリに対応するテキストのストローク情報をマッピングします。提案された方法は、ゼロショット設定の下でよく知られている多言語シーン テキスト データセットを使用して検証されます。この結果は、自然画像における目に見えない文字の検出に対する提案手法の可能性を示しています。
Text detection in the wild is a well-known problem that becomes more challenging while handling multiple scripts. In the last decade, some scripts have gained the attention of the research community and achieved good detection performance. However, many scripts are low-resourced for training deep learning-based scene text detectors. It raises a critical question: Is there a need for separate training for new scripts? It is an unexplored query in the field of scene text detection. This paper acknowledges this problem and proposes a solution to detect scripts not present during training. In this work, the analysis has been performed to understand cross-script text detection, i.e., trained on one and tested on another. We found that the identical nature of text annotation (word-level/line-level) is crucial for better cross-script text detection. The different nature of text annotation between scripts degrades cross-script text detection performance. Additionally, for unseen script detection, the proposed solution utilizes vector embedding to map the stroke information of text corresponding to the script category. The proposed method is validated with a well-known multi-lingual scene text dataset under a zero-shot setting. The results show the potential of the proposed method for unseen script detection in natural images.