arXiv reaDer
WordStylist: 潜在拡散モデルを使用したスタイル付き逐語手書きテキスト生成
WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models
テキストから画像への合成は、特定のテキスト記述に従って画像を生成するタスクです。 Generative Adversarial Networks は、その導入以来、事実上、画像合成の標準的な方法と見なされてきました。今日、ノイズ除去拡散確率モデルは最近、新しいベースラインを設定しており、テキストから画像への合成などの分野で目覚ましい成果を上げています。それ自体の有用性は別として、他のドキュメント画像処理タスクのモデルのトレーニングを支援するためのデータ拡張ツールとしても特に関連性があります。この作業では、単語レベルでスタイル付きのテキストからテキストへのコンテンツ画像を生成するための潜在的な拡散ベースの方法を提示します。提案された方法は、敵対的トレーニング、ライター認識、またはテキスト認識を必要とせずに、クラス インデックス スタイルとテキスト コンテンツ プロンプトを使用して、さまざまなライター スタイルから現実的な単語画像サンプルを生成することに成功しました。 Frechet Inception Distance、ライター認識精度、およびライター検索でシステム パフォーマンスを測定します。提案されたモデルが美的に満足できるサンプルを生成し、テキスト認識のパフォーマンスを向上させ、実際のデータと同様のライター検索スコアを取得することを示します。
Text-to-Image synthesis is the task of generating an image according to a specific text description. Generative Adversarial Networks have been considered the standard method for image synthesis virtually since their introduction; today, Denoising Diffusion Probabilistic Models are recently setting a new baseline, with remarkable results in Text-to-Image synthesis, among other fields. Aside its usefulness per se, it can also be particularly relevant as a tool for data augmentation to aid training models for other document image processing tasks. In this work, we present a latent diffusion-based method for styled text-to-text-content-image generation on word-level. Our proposed method manages to generate realistic word image samples from different writer styles, by using class index styles and text content prompts without the need of adversarial training, writer recognition, or text recognition. We gauge system performance with Frechet Inception Distance, writer recognition accuracy, and writer retrieval. We show that the proposed model produces samples that are aesthetically pleasing, help boosting text recognition performance, and gets similar writer retrieval score as real data.
updated: Wed Mar 29 2023 10:19:26 GMT+0000 (UTC)
published: Wed Mar 29 2023 10:19:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト