arXiv reaDer
A Closer Look at Parameter-Efficient Tuning in Diffusion Models
Stable Diffusion のような大規模な拡散モデルは強力であり、さまざまな実世界のアプリケーションを見つけることができますが、微調整によってそのようなモデルをカスタマイズすることは、メモリと時間の両方で非効率的です。自然言語処理の最近の進歩に動機付けられて、小さな学習可能なモジュール (アダプターと呼ばれる) を挿入することにより、大規模な拡散モデルでパラメーター効率の高いチューニングを調査します。特に、アダプターの設計空間を直交因子 (入力位置、出力位置、および関数形式) に分解し、分散分析 (ANOVA) を実行します。分散分析 (ANOVA) は、離散 (設計オプション) と連続変数 (評価指標)。私たちの分析は、アダプターの入力位置がダウンストリーム タスクのパフォーマンスに影響を与える重要な要因であることを示唆しています。次に、入力位置の選択を慎重に検討し、入力位置を相互注意ブロックの後に配置すると、追加の視覚化分析によって検証された最高のパフォーマンスが得られることがわかりました。最後に、さまざまなカスタマイズされたタスクにわたって、わずか 0.75 % の追加パラメーターを使用して、完全に微調整されたベースライン (例: DreamBooth) に匹敵するとは言えませんが、拡散モデルにおけるパラメーター効率の高い調整のレシピを提供します。
Large-scale diffusion models like Stable Diffusion are powerful and find various real-world applications while customizing such models by fine-tuning is both memory and time inefficient. Motivated by the recent progress in natural language processing, we investigate parameter-efficient tuning in large diffusion models by inserting small learnable modules (termed adapters). In particular, we decompose the design space of adapters into orthogonal factors -- the input position, the output position as well as the function form, and perform Analysis of Variance (ANOVA), a classical statistical approach for analyzing the correlation between discrete (design options) and continuous variables (evaluation metrics). Our analysis suggests that the input position of adapters is the critical factor influencing the performance of downstream tasks. Then, we carefully study the choice of the input position, and we find that putting the input position after the cross-attention block can lead to the best performance, validated by additional visualization analyses. Finally, we provide a recipe for parameter-efficient tuning in diffusion models, which is comparable if not superior to the fully fine-tuned baseline (e.g., DreamBooth) with only 0.75 % extra parameters, across various customized tasks.
updated: Fri Mar 31 2023 16:23:29 GMT+0000 (UTC)
published: Fri Mar 31 2023 16:23:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト