arXiv reaDer
TeLCoS:スクリプトのクラスタリングによるOnDeviceテキストのローカリゼーション
TeLCoS: OnDevice Text Localization with Clustering of Script
リソースに制約のある環境でのテキストローカリゼーションの分野における最近の研究では、ディープニューラルネットワークが広く利用されています。低メモリモバイルデバイスでのシーンテキストのローカリゼーションと認識には、コンテンツ抽出、画像分類、キーワードベースの画像検索などの幅広いアプリケーションがあります。多言語のローカライズされたテキストのテキスト認識のために、OCRシステムは各テキストインスタンスのスクリプトの事前知識を必要とします。これにより、ワードスクリプトの識別がテキスト認識に不可欠なステップになります。ほとんどの既存の方法は、テキストのローカリゼーション、スクリプトの識別、およびテキスト認識を3つの別個のタスクとして扱います。これにより、スクリプトの識別が認識パイプラインのオーバーヘッドになります。このオーバーヘッドを削減するために、TeLCoS:スクリプトのクラスタリングを使用したOnDeviceテキストローカリゼーションを提案します。これは、デバイスのテキストローカリゼーションと高レベルのスクリプトクラスタリングを同時に実行するマルチタスクデュアルブランチ軽量CNNネットワークです。ネットワークは、ローカリゼーションネットワークを介した単一のフィードフォワードパスを介して、主に使用されるスクリプトをグループ化および識別することにより、個別のスクリプト識別モジュールへの呼び出しの数を大幅に削減します。また、わずか115万のパラメータで効率的なネットワークを構築するために、新しい構造類似性ベースのチャネルプルーニングメカニズムを紹介します。ベンチマークデータセットでの実験は、私たちの方法がExynos990チップセットデバイスのパイプライン全体で60ミリ秒の実行待ち時間で最先端のパフォーマンスを達成することを示唆しています。
Recent research in the field of text localization in a resource constrained environment has made extensive use of deep neural networks. Scene text localization and recognition on low-memory mobile devices have a wide range of applications including content extraction, image categorization and keyword based image search. For text recognition of multi-lingual localized text, the OCR systems require prior knowledge of the script of each text instance. This leads to word script identification being an essential step for text recognition. Most existing methods treat text localization, script identification and text recognition as three separate tasks. This makes script identification an overhead in the recognition pipeline. To reduce this overhead, we propose TeLCoS: OnDevice Text Localization with Clustering of Script, a multi-task dual branch lightweight CNN network that performs real-time on device Text Localization and High-level Script Clustering simultaneously. The network drastically reduces the number of calls to a separate script identification module, by grouping and identifying some majorly used scripts through a single feed-forward pass over the localization network. We also introduce a novel structural similarity based channel pruning mechanism to build an efficient network with only 1.15M parameters. Experiments on benchmark datasets suggest that our method achieves state-of-the-art performance, with execution latency of 60 ms for the entire pipeline on the Exynos 990 chipset device.
updated: Fri Apr 16 2021 11:45:20 GMT+0000 (UTC)
published: Fri Apr 16 2021 11:45:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト