arXiv reaDer
深い生成モデルで宝くじに当選
Winning Lottery Tickets in Deep Generative Models
宝くじの仮説は、特定のニューラルネットワークのスパースなサブネットワークを適切に初期化すると、元のネットワークと同等またはそれ以上のパフォーマンスに到達するようにトレーニングできることを示唆しています。宝くじのこれまでの作品は、主に教師あり学習の設定に焦点を当てており、分類問題で「当選チケット」を見つける効果的な方法を提案するいくつかの論文があります。本稿では、GANやVAEなどの深層生成モデルにおける当選チケットの存在を確認します。人気のある反復マグニチュードプルーニングアプローチ(遅い巻き戻しを使用)を生成損失とともに使用して、当選チケットを見つけることができることを示します。このアプローチにより、CIFARおよびCeleb-Aデータセットで、オートエンコーダーで最大99%、VAEで93%、GANで89%のスパース性を持つチケットが効果的に生成されます。また、同じアーキテクチャを共有するさまざまな生成モデル(GANとVAE)間での当選チケットの転送可能性を示します。これは、当選チケットには、広範囲の深い生成モデルのトレーニングに役立つ可能性のある誘導バイアスがあることを示唆しています。さらに、「アーリーバードチケット」と呼ばれるトレーニングの非常に早い段階でチケットを検出することにより、生成モデルでの宝くじの実用的な利点を示します。アーリーバードチケットにより、浮動小数点演算(FLOP)を最大88%削減し、トレーニング時間を54%削減できるため、リソースの制約が厳しい場合でも大規模な生成モデルをトレーニングできます。これらの結果は、SNIP(Lee、Ajanthan、およびTorr 2019)やGraSP(Wang、Zhang、およびGrosse 2020)などの既存の初期剪定方法よりも優れています。私たちの調査結果は、生成モデルの収束と安定性を向上させることができる適切なネットワーク初期化の存在に光を当てます。
The lottery ticket hypothesis suggests that sparse, sub-networks of a given neural network, if initialized properly, can be trained to reach comparable or even better performance to that of the original network. Prior works in lottery tickets have primarily focused on the supervised learning setup, with several papers proposing effective ways of finding "winning tickets" in classification problems. In this paper, we confirm the existence of winning tickets in deep generative models such as GANs and VAEs. We show that the popular iterative magnitude pruning approach (with late rewinding) can be used with generative losses to find the winning tickets. This approach effectively yields tickets with sparsity up to 99% for AutoEncoders, 93% for VAEs and 89% for GANs on CIFAR and Celeb-A datasets. We also demonstrate the transferability of winning tickets across different generative models (GANs and VAEs) sharing the same architecture, suggesting that winning tickets have inductive biases that could help train a wide range of deep generative models. Furthermore, we show the practical benefits of lottery tickets in generative models by detecting tickets at very early stages in training called "early-bird tickets". Through early-bird tickets, we can achieve up to 88% reduction in floating-point operations (FLOPs) and 54% reduction in training time, making it possible to train large-scale generative models over tight resource constraints. These results out-perform existing early pruning methods like SNIP (Lee, Ajanthan, and Torr 2019) and GraSP (Wang, Zhang, and Grosse 2020). Our findings shed light towards existence of proper network initializations that could improve convergence and stability of generative models.
updated: Fri Jan 29 2021 18:44:21 GMT+0000 (UTC)
published: Mon Oct 05 2020 21:45:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト