カスケード拡散モデルは、サンプル品質を向上させるための補助画像分類器の支援なしに、クラス条件付きImageNet生成ベンチマークで高忠実度の画像を生成できることを示します。カスケード拡散モデルは、解像度が高くなる画像を生成する複数の拡散モデルのパイプラインで構成され、最低解像度の標準拡散モデルから始まり、画像を連続的にアップサンプリングして高解像度の詳細を追加する1つ以上の超解像拡散モデルが続きます。カスケードパイプラインのサンプル品質は、超解像モデルへの低解像度コンディショニング入力のデータ拡張の提案された方法であるコンディショニング拡張に大きく依存していることがわかります。私たちの実験は、コンディショニング増強がカスケードモデルでのサンプリング中の複合エラーを防ぎ、カスケードパイプラインをトレーニングして64x64で1.48、128x128で3.52、256x256の解像度で4.88を達成し、BigGANディープを上回り、分類精度スコアが63.02であることを示しています。 256x256で%(トップ1)および84.06%(トップ5)、VQ-VAE-2を上回っています。
We show that cascaded diffusion models are capable of generating high fidelity images on the class-conditional ImageNet generation benchmark, without any assistance from auxiliary image classifiers to boost sample quality. A cascaded diffusion model comprises a pipeline of multiple diffusion models that generate images of increasing resolution, beginning with a standard diffusion model at the lowest resolution, followed by one or more super-resolution diffusion models that successively upsample the image and add higher resolution details. We find that the sample quality of a cascading pipeline relies crucially on conditioning augmentation, our proposed method of data augmentation of the lower resolution conditioning inputs to the super-resolution models. Our experiments show that conditioning augmentation prevents compounding error during sampling in a cascaded model, helping us to train cascading pipelines achieving FID scores of 1.48 at 64x64, 3.52 at 128x128 and 4.88 at 256x256 resolutions, outperforming BigGAN-deep, and classification accuracy scores of 63.02% (top-1) and 84.06% (top-5) at 256x256, outperforming VQ-VAE-2.