arXiv reaDer
拡散モデルはペインターのようなイメージを生成します: アウトラインの分析理論、詳細は後で
Diffusion Models Generate Images Like Painters: an Analytical Theory of Outline First, Details Later
拡散生成モデルはどのようにして純粋なノイズを意味のある画像に変換しますか?生成には、まずアウトラインにコミットし、次に、より細かい詳細にコミットする必要があると主張します。対応する逆拡散プロセスは、ガウスのようなモードでいっぱいの(時間依存の)高次元ランドスケープのダイナミクスによってモデル化できます。これにより、次の予測が行われます。(i)個々の軌跡は非常に低次元になる傾向があります。 (ii) トレーニング データ内でより変化するシーン要素は、より早く出現する傾向があります。 (iii)初期の摂動は、後期の摂動よりも頻繁に画像コンテンツを大幅に変更します。 Stable Diffusion のようなさまざまなトレーニング済みの無条件および条件付き拡散モデルの動作が、これらの予測と一致することを示します。最後に、理論を使用して拡散モデルの潜像多様体を検索し、解釈可能な画像のバリエーションを生成する新しい方法を提案します。私たちの見解は、GAN による生成と拡散モデルには予想外の類似点があることを示唆しています。
How do diffusion generative models convert pure noise into meaningful images? We argue that generation involves first committing to an outline, and then to finer and finer details. The corresponding reverse diffusion process can be modeled by dynamics on a (time-dependent) high-dimensional landscape full of Gaussian-like modes, which makes the following predictions: (i) individual trajectories tend to be very low-dimensional; (ii) scene elements that vary more within training data tend to emerge earlier; and (iii) early perturbations substantially change image content more often than late perturbations. We show that the behavior of a variety of trained unconditional and conditional diffusion models like Stable Diffusion is consistent with these predictions. Finally, we use our theory to search for the latent image manifold of diffusion models, and propose a new way to generate interpretable image variations. Our viewpoint suggests generation by GANs and diffusion models have unexpected similarities.
updated: Sat Mar 04 2023 20:08:57 GMT+0000 (UTC)
published: Sat Mar 04 2023 20:08:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト