拡散モデルは強力ですが、トレーニングには多くの時間とデータが必要です。汎用的なパッチごとのトレーニング フレームワークである Patch Diffusion を提案し、トレーニング時間のコストを大幅に削減しながらデータ効率を向上させます。私たちの革新の核心は、パッチ レベルでの新しい条件付きスコア関数です。元の画像のパッチの位置が追加の座標チャネルとして含まれますが、パッチ サイズはトレーニング全体でランダム化および多様化され、領域間の依存関係がコード化されます。複数のスケール。私たちの方法でのサンプリングは、元の拡散モデルと同じくらい簡単です。 Patch Diffusion により、同等またはそれ以上の生成品質を維持しながら、2 倍以上の高速トレーニングを達成できました。一方、Patch Diffusion は、比較的小さなデータセットでトレーニングされた拡散モデルのパフォーマンスを向上させます。たとえば、5,000 枚の画像を最初からトレーニングする必要があります。最先端の FID スコア 1.77 を CelebA-64×64 で、1.93 を AFHQv2-Wild-64×64 で達成しました。コードと事前トレーニング済みのモデルをすぐに共有します。
Diffusion models are powerful, but they require a lot of time and data to train. We propose Patch Diffusion, a generic patch-wise training framework, to significantly reduce the training time costs while improving data efficiency, which thus helps democratize diffusion model training to broader users. At the core of our innovations is a new conditional score function at the patch level, where the patch location in the original image is included as additional coordinate channels, while the patch size is randomized and diversified throughout training to encode the cross-region dependency at multiple scales. Sampling with our method is as easy as in the original diffusion model. Through Patch Diffusion, we could achieve ≥2× faster training, while maintaining comparable or better generation quality. Patch Diffusion meanwhile improves the performance of diffusion models trained on relatively small datasets, e.g., as few as 5,000 images to train from scratch. We achieve state-of-the-art FID scores 1.77 on CelebA-64×64 and 1.93 on AFHQv2-Wild-64×64. We will share our code and pre-trained models soon.