arXiv reaDer
テキストと画像の合成における高度なテキストと画像の対応のためのセマンティック レイアウトを生成する方法を学習する
Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis
既存のテキストから画像への生成アプローチは、フォトリアリズムとテキストと画像の対応に高い基準を設定しており、最大 50 億のペアを含めることができる Web スケールのテキストと画像のデータセットの恩恵を大きく受けています。ただし、都市風景、医療画像、顔などのドメイン固有のデータセットでトレーニングされたテキストから画像への生成モデルは、テキストと画像のペアが不足しているため、依然としてテキストと画像の対応が低いという問題があります。さらに、特定のドメインについて何十億ものテキストと画像のペアを収集するには、時間とコストがかかる可能性があります。したがって、Web スケールのテキストと画像のデータセットに依存せずに高度なテキストと画像の対応を確保することは、依然として困難な課題です。この論文では、利用可能なセマンティック レイアウトを活用してテキストと画像の対応を強化するための新しいアプローチを紹介します。具体的には、画像と対応するレイアウトのペアの両方を同時に生成するガウス カテゴリカル拡散プロセスを提案します。私たちの実験では、ピクセルごとに意味ラベルを生成するようにモデルをトレーニングすることで、テキストから画像への生成モデルがさまざまな画像領域の意味を認識できるようにできることが明らかになりました。我々のアプローチは、テキストと画像のペアが不足しているマルチモーダル CelebA-HQ および Cityscapes データセットにおける既存のテキストから画像への生成アプローチと比較して、より高いテキストと画像の対応を実現することを実証します。コードは、https://pmh9960.github.io/research/GCDP で入手できます。
Existing text-to-image generation approaches have set high standards for photorealism and text-image correspondence, largely benefiting from web-scale text-image datasets, which can include up to 5~billion pairs. However, text-to-image generation models trained on domain-specific datasets, such as urban scenes, medical images, and faces, still suffer from low text-image correspondence due to the lack of text-image pairs. Additionally, collecting billions of text-image pairs for a specific domain can be time-consuming and costly. Thus, ensuring high text-image correspondence without relying on web-scale text-image datasets remains a challenging task. In this paper, we present a novel approach for enhancing text-image correspondence by leveraging available semantic layouts. Specifically, we propose a Gaussian-categorical diffusion process that simultaneously generates both images and corresponding layout pairs. Our experiments reveal that we can guide text-to-image generation models to be aware of the semantics of different image regions, by training the model to generate semantic labels for each pixel. We demonstrate that our approach achieves higher text-image correspondence compared to existing text-to-image generation approaches in the Multi-Modal CelebA-HQ and the Cityscapes dataset, where text-image pairs are scarce. Codes are available in this https://pmh9960.github.io/research/GCDP
updated: Wed Aug 16 2023 05:59:33 GMT+0000 (UTC)
published: Wed Aug 16 2023 05:59:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト