一般的な領域でのテキストから画像への生成は、長い間未解決の問題であり、強力な生成モデルとクロスモーダルな理解の両方が必要です。この問題を進めるために、VQ-VAEトークナイザーを備えた40億パラメーターのトランスフォーマーであるCogViewを提案します。また、スタイル学習、超解像、テキスト画像のランク付け、ファッションデザインなど、さまざまなダウンストリームタスクの微調整戦略、およびNaN損失の排除などの事前トレーニングを安定させる方法についても説明します。 CogViewは、ぼやけたMS COCOデータセットで最先端のFIDを実現し、以前のGANベースのモデルや最近の同様の作業であるDALL-Eを上回っています。
Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.