arXiv reaDer
スローガン:任意の長さと語彙外のテキストの手書きスタイルの合成
SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text
堅牢なテキスト認識機能のトレーニングには、大量のラベル付きデータが緊急に必要です。ただし、膨大なレキシコンとともに、さまざまなスタイルの手書きデータを収集するには、かなりの費用がかかります。データ合成はデータの飢餓を緩和する有望な方法ですが、手書き合成の2つの重要な問題、つまりスタイル表現とコンテンツの埋め込みは未解決のままです。この目的のために、SLOGANと呼ばれる生成的敵対的ネットワーク(GAN)に基づいて、任意の長さおよび語彙外のテキストのパラメーター化された制御可能な手書きスタイルを合成できる新しい方法を提案します。具体的には、特定の手書きスタイルを潜在ベクトルとしてパラメーター化するスタイルバンクを提案します。潜在ベクトルは、対応する手書きスタイルを実現するためのスタイル事前確率としてジェネレーターに入力されます。スタイルバンクのトレーニングでは、属性の注釈ではなく、ソース画像のライターIDのみが必要です。また、入手しやすい印刷スタイルの画像を提供することでテキストコンテンツを埋め込み、入力した印刷画像を変更することでコンテンツの多様性を柔軟に実現できるようにしました。最後に、ジェネレータはデュアルディスクリミネータによってガイドされ、分離された文字として表示される手書き特性と一連の筆記体結合の両方を処理します。私たちの方法では、トレーニング語彙に含まれていないさまざまな新しいスタイルの単語を合成できます。広範な実験により、スタイルの多様性と語彙が豊富な高品質のテキスト画像を本手法を使用して合成できることが示されました。これにより、認識機能の堅牢性が向上します。
Large amounts of labeled data are urgently required for the training of robust text recognizers. However, collecting handwriting data of diverse styles, along with an immense lexicon, is considerably expensive. Although data synthesis is a promising way to relieve data hunger, two key issues of handwriting synthesis, namely, style representation and content embedding, remain unsolved. To this end, we propose a novel method that can synthesize parameterized and controllable handwriting Styles for arbitrary-Length and Out-of-vocabulary text based on a Generative Adversarial Network (GAN), termed SLOGAN. Specifically, we propose a style bank to parameterize the specific handwriting styles as latent vectors, which are input to a generator as style priors to achieve the corresponding handwritten styles. The training of the style bank requires only the writer identification of the source images, rather than attribute annotations. Moreover, we embed the text content by providing an easily obtainable printed style image, so that the diversity of the content can be flexibly achieved by changing the input printed image. Finally, the generator is guided by dual discriminators to handle both the handwriting characteristics that appear as separated characters and in a series of cursive joins. Our method can synthesize words that are not included in the training vocabulary and with various new styles. Extensive experiments have shown that high-quality text images with great style diversity and rich vocabulary can be synthesized using our method, thereby enhancing the robustness of the recognizer.
updated: Wed Feb 23 2022 12:13:27 GMT+0000 (UTC)
published: Wed Feb 23 2022 12:13:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト