arXiv reaDer
SMILE:テキスト画像認識のための潜在エントロピーを最小化するシーケンス間ドメイン適応
SMILE: Sequence-to-Sequence Domain Adaption with Minimizing Latent Entropy for Text Image Recognition
合成画像を使用した認識モデルのトレーニングは、テキスト認識で驚くべき結果を達成しました。ただし、実世界の画像からテキストを認識することは、合成テキスト画像と実世界のテキスト画像の間のドメインシフトのために、依然として課題に直面しています。手動アノテーションなしでドメインの違いを排除するための戦略の1つは、教師なしドメイン適応(UDA)です。シーケンシャルラベリングタスクの特性により、最も一般的なUDAメソッドをテキスト認識に直接適用することはできません。この問題に取り組むために、クラスバランスのとれた自己ペース学習を備えたシーケンス間注意ベースのモデルで潜在的なエントロピーを最小化するUDAメソッドを提案しました。私たちの実験は、提案されたフレームワークが、ほとんどのUDAテキスト認識ベンチマークの既存の方法よりも優れた認識結果を達成することを示しています。すべてのコードは公開されています。
Training recognition models with synthetic images have achieved remarkable results in text recognition. However, recognizing text from real-world images still faces challenges due to the domain shift between synthetic and real-world text images. One of the strategies to eliminate the domain difference without manual annotation is unsupervised domain adaptation (UDA). Due to the characteristic of sequential labeling tasks, most popular UDA methods cannot be directly applied to text recognition. To tackle this problem, we proposed a UDA method with minimizing latent entropy on sequence-to-sequence attention-based models with classbalanced self-paced learning. Our experiments show that our proposed framework achieves better recognition results than the existing methods on most UDA text recognition benchmarks. All codes are publicly available.
updated: Thu Feb 24 2022 08:13:12 GMT+0000 (UTC)
published: Thu Feb 24 2022 08:13:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト