arXiv reaDer
GlyphDraw: 画像合成モデルで一貫して漢字を描くことを学ぶ
GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently
言語誘導画像生成の分野における最近のブレークスルーは目覚ましい成果をもたらし、ユーザーの指示に基づいて高品質で多様な画像の作成を可能にしました。合成パフォーマンスは魅力的ですが、現在の画像生成モデルの重大な制限の 1 つは、特に漢字のような複雑なグリフ構造の場合、画像内で一貫したテキストを生成する能力が不十分なことです。この問題に対処するために、一貫したテキストが埋め込まれた画像を生成する能力を画像生成モデルに付与することを目的とした一般的な学習フレームワークである GlyphDraw を導入します。私たちの知る限り、これは画像合成の分野で漢字の生成に取り組んだ最初の研究です。 % まず、OCR 手法を使用して学習サンプルとして漢字を含む画像を収集し、テキストと場所を補助情報として抽出します。まず、画像とテキストのデータセットの構築戦略を精巧に設計し、次に拡散ベースの画像ジェネレーターでモデルを構築し、ネットワーク構造を慎重に変更して、モデルがグリフと位置情報を利用して漢字の描画を学習できるようにします。さらに、さまざまなトレーニング手法を使用して壊滅的な忘却を防止することにより、モデルのオープン ドメイン画像合成機能を維持します。広範な定性的および定量的実験により、私たちの方法がプロンプトのように正確な漢字を生成するだけでなく、生成されたテキストを背景に自然にブレンドすることも実証されています。 https://1073521013.github.io/glyph-draw.github.io を参照してください。
Recent breakthroughs in the field of language-guided image generation have yielded impressive achievements, enabling the creation of high-quality and diverse images based on user instructions. Although the synthesis performance is fascinating, one significant limitation of current image generation models is their insufficient ability to generate coherent text within images, particularly for complex glyph structures like Chinese characters. To address this problem, we introduce GlyphDraw, a general learning framework aiming at endowing image generation models with the capacity to generate images embedded with coherent text. To the best of our knowledge, this is the first work in the field of image synthesis to address the generation of Chinese characters. % we first adopt the OCR technique to collect images with Chinese characters as training samples, and extract the text and locations as auxiliary information. We first sophisticatedly design the image-text dataset's construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing Chinese characters with the help of glyph and position information. Furthermore, we maintain the model's open-domain image synthesis capability by preventing catastrophic forgetting by using a variety of training techniques. Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate Chinese characters as in prompts, but also naturally blends the generated text into the background. Please refer to https://1073521013.github.io/glyph-draw.github.io
updated: Fri Mar 31 2023 08:06:33 GMT+0000 (UTC)
published: Fri Mar 31 2023 08:06:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト