arXiv reaDer
WordStylist: 潜在拡散モデルを使用したスタイル付き逐語的手書きテキスト生成
WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models
テキストから画像への合成は、特定のテキスト記述に従って画像を生成するタスクです。 Generative Adversarial Networks は、その導入以来、仮想的に画像を合成するための標準的な方法と考えられてきました。ノイズ除去拡散確率モデルは最近、新たなベースラインを確立しており、とりわけテキストから画像への合成において顕著な結果をもたらしています。それ自体の有用性は別として、他の文書画像処理タスクのモデルのトレーニングを支援するデータ拡張ツールとしても特に重要です。この研究では、単語レベルでスタイル付きテキストからテキストコンテンツ画像を生成するための潜在拡散ベースの方法を紹介します。私たちが提案する方法は、クラスインデックススタイルとテキストコンテンツプロンプトを使用することにより、敵対的トレーニング、ライター認識、またはテキスト認識を必要とせずに、さまざまなライタースタイルから現実的な単語画像サンプルを生成できます。私たちは、フレシェ開始距離、ライター認識精度、およびライター検索によってシステムのパフォーマンスを評価します。提案されたモデルが見た目に美しいサンプルを生成し、テキスト認識パフォーマンスの向上に役立ち、実際のデータと同様のライター検索スコアが得られることを示します。コードは https://github.com/koninik/WordStylist から入手できます。
Text-to-Image synthesis is the task of generating an image according to a specific text description. Generative Adversarial Networks have been considered the standard method for image synthesis virtually since their introduction. Denoising Diffusion Probabilistic Models are recently setting a new baseline, with remarkable results in Text-to-Image synthesis, among other fields. Aside its usefulness per se, it can also be particularly relevant as a tool for data augmentation to aid training models for other document image processing tasks. In this work, we present a latent diffusion-based method for styled text-to-text-content-image generation on word-level. Our proposed method is able to generate realistic word image samples from different writer styles, by using class index styles and text content prompts without the need of adversarial training, writer recognition, or text recognition. We gauge system performance with the Fréchet Inception Distance, writer recognition accuracy, and writer retrieval. We show that the proposed model produces samples that are aesthetically pleasing, help boosting text recognition performance, and get similar writer retrieval score as real data. Code is available at: https://github.com/koninik/WordStylist.
updated: Wed May 17 2023 09:20:09 GMT+0000 (UTC)
published: Wed Mar 29 2023 10:19:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト