CogView: Mastering Text-to-Image Generation via Transformers

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang

CogView: トランスフォーマーによるテキストから画像への生成をマスターする

一般的な領域でのテキストから画像への生成は長い間未解決の問題であり、強力な生成モデルとクロスモーダルの理解の両方が必要です。この問題を解決するために、VQ-VAE トークナイザーを備えた 40 億パラメーターのトランスフォーマーである CogView を提案します。また、スタイル学習、超解像、テキスト画像のランキング、ファッションデザインなど、さまざまな下流タスクの微調整戦略、および NaN 損失の排除などの事前トレーニングを安定させる方法も示します。 CogView (ゼロショット) は、ぼやけた MS COCO で新しい最先端の FID を実現し、以前の GAN ベースのモデルや最近の同様の作業である DALL-E よりも優れています。

Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView (zero-shot) achieves a new state-of-the-art FID on blurred MS COCO, outperforms previous GAN-based models and a recent similar work DALL-E.

updated: Fri May 28 2021 18:05:31 GMT+0000 (UTC)

published: Wed May 26 2021 16:52:53 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト