arXiv reaDer
自己注意ガイダンスを使用した拡散モデルのサンプル品質の向上
Improving Sample Quality of Diffusion Models Using Self-Attention Guidance
ノイズ除去拡散モデル (DDM) は、そのかなりのサンプル品質と多様性のために多くの注目を集めています。目覚ましい性能にもかかわらず、DDM はブラック ボックスのままであり、深遠な一歩を踏み出すにはさらなる研究が必要です。これに動機付けられて、従来のU字型拡散モデルの設計を掘り下げます。より具体的には、慎重に設計された実験を通じてこれらのモデル内の自己注意モジュールを調査し、その特性を探ります。さらに、ガイダンス スキームの有効性を実証する研究に触発されて、既存の拡散モデルのパフォーマンスを大幅に向上させることができるプラグ アンド プレイ拡散ガイダンス、つまり Self-Attention Guidance (SAG) を提示します。私たちの方法であるSAGは、反復ごとに拡散モデルから中間アテンションマップを抽出し、マスキングとぼかしのために特定のアテンションスコアを超えるトークンを選択して、部分的にぼやけた入力を取得します。その後、ぼやけた入力と元の入力を拡散モデルに入力して得られた予測ノイズ間の相違を測定し、それをガイダンスとして活用します。このガイダンスにより、ADM、IDDPM、Stable Diffusion などの幅広い拡散モデルで明らかな改善が見られ、従来のガイダンス スキームと組み合わせることで結果がさらに改善されることが示されました。私たちは、私たちの選択を検証するために広範なアブレーション研究を提供します。
Denoising diffusion models (DDMs) have been drawing much attention for their appreciable sample quality and diversity. Despite their remarkable performance, DDMs remain black boxes on which further study is necessary to take a profound step. Motivated by this, we delve into the design of conventional U-shaped diffusion models. More specifically, we investigate the self-attention modules within these models through carefully designed experiments and explore their characteristics. In addition, inspired by the studies that substantiate the effectiveness of the guidance schemes, we present plug-and-play diffusion guidance, namely Self-Attention Guidance (SAG), that can drastically boost the performance of existing diffusion models. Our method, SAG, extracts the intermediate attention map from a diffusion model at every iteration and selects tokens above a certain attention score for masking and blurring to obtain a partially blurred input. Subsequently, we measure the dissimilarity between the predicted noises obtained from feeding the blurred and original input to the diffusion model and leverage it as guidance. With this guidance, we observe apparent improvements in a wide range of diffusion models, e.g., ADM, IDDPM, and Stable Diffusion, and show that the results further improve by combining our method with the conventional guidance scheme. We provide extensive ablation studies to verify our choices.
updated: Mon Nov 21 2022 14:31:08 GMT+0000 (UTC)
published: Mon Oct 03 2022 13:50:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト