arXiv reaDer
拡散ベースの生成モデルの設計空間の解明
Elucidating the Design Space of Diffusion-Based Generative Models
拡散ベースの生成モデルの理論と実践は現在不必要に複雑であり、具体的な設計の選択を明確に分離する設計空間を提示することによって状況を改善しようとしていると私たちは主張します。これにより、サンプリングプロセスとトレーニングプロセスの両方に対するいくつかの変更、およびスコアネットワークの前処理を特定できます。同時に、私たちの改善により、クラス条件付き設定でCIFAR-10の1.79、無条件設定で1.97の新しい最先端のFIDが得られ、以前の設計よりもはるかに高速なサンプリング(画像あたり35のネットワーク評価)が得られます。モジュールの性質をさらに実証するために、既存のImageNet-64モデルのFIDを2.07からSOTA 1.55に近づけるなど、設計変更により、以前の作業で事前トレーニングされたスコアネットワークで得られる効率と品質の両方が劇的に向上することを示します。
We argue that the theory and practice of diffusion-based generative models are currently unnecessarily convoluted and seek to remedy the situation by presenting a design space that clearly separates the concrete design choices. This lets us identify several changes to both the sampling and training processes, as well as preconditioning of the score networks. Together, our improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a class-conditional setting and 1.97 in an unconditional setting, with much faster sampling (35 network evaluations per image) than prior designs. To further demonstrate their modular nature, we show that our design changes dramatically improve both the efficiency and quality obtainable with pre-trained score networks from previous work, including improving the FID of an existing ImageNet-64 model from 2.07 to near-SOTA 1.55.
updated: Wed Jun 01 2022 10:03:24 GMT+0000 (UTC)
published: Wed Jun 01 2022 10:03:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト