変圧器アーキテクチャに基づく新しいクラスの拡散モデルを調査します。画像の潜在拡散モデルをトレーニングし、一般的に使用される U-Net バックボーンを潜在パッチで動作するトランスフォーマーに置き換えます。 Gflops によって測定されるフォワード パスの複雑さのレンズを通して、拡散トランスフォーマー (DiTs) のスケーラビリティを分析します。トランスフォーマーの深さ/幅の増加または入力トークン数の増加により、Gflops が高い DiT は一貫して FID が低いことがわかりました。優れたスケーラビリティ特性を備えていることに加えて、当社の最大の DiT-XL/2 モデルは、クラス条件付き ImageNet 512x512 および 256x256 ベンチマークで以前のすべての拡散モデルよりも優れており、後者で 2.27 の最先端の FID を達成しています。
We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops -- through increased transformer depth/width or increased number of input tokens -- consistently have lower FID. In addition to possessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class-conditional ImageNet 512x512 and 256x256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.