拡散モデルは、テキスト生成の新しい生成パラダイムになりました。テキストの離散カテゴリの性質を考慮して、この論文では、テキストガイド画像生成によるテキスト生成のための新しい拡散アプローチである RenderDiffusion を提案します。私たちの重要なアイデアは、ターゲット テキストを視覚言語コンテンツを含むグリフ イメージとしてレンダリングすることです。このように、条件付きテキスト生成はグリフ画像生成タスクとしてキャストすることができ、離散テキストに連続拡散モデルを適用するのは自然なことです。特に、カスケード アーキテクチャ (つまり、ベースおよび超解像度拡散モデル) を利用して、入力テキストを条件として、忠実度の高いグリフ イメージを生成します。さらに、生成されたグリフ画像から視覚言語コンテンツを最終的なテキストに変換および改良するテキスト グラウンディング モジュールを設計します。 4 つの条件付きテキスト生成タスクと 2 つのクラスのメトリック (つまり、品質と多様性) に関する実験では、RenderDiffusion は、事前トレーニング済みの言語モデルを含むいくつかのベースラインよりも同等またはそれ以上の結果を達成できます。私たちのモデルはまた、最近の拡散モデルと比較して大幅に改善されています。
Diffusion models have become a new generative paradigm for text generation. Considering the discrete categorical nature of text, in this paper, we propose RenderDiffusion, a novel diffusion approach for text generation via text-guided image generation. Our key idea is to render the target text as a glyph image containing visual language content. In this way, conditional text generation can be cast as a glyph image generation task, and it is then natural to apply continuous diffusion models to discrete texts. Specially, we utilize a cascaded architecture (i.e. a base and a super-resolution diffusion model) to generate high-fidelity glyph images, conditioned on the input text. Furthermore, we design a text grounding module to transform and refine the visual language content from generated glyph images into the final texts. In experiments over four conditional text generation tasks and two classes of metrics (i.e. quality and diversity), RenderDiffusion can achieve comparable or even better results than several baselines, including pretrained language models. Our model also makes significant improvements compared to the recent diffusion model.