Frankle&Carbinによる最近の「宝くじ券仮説」論文は、スパースネットワークを作成する(大きな重みを維持する)単純なアプローチが、同じ初期重みから開始する場合にのみゼロからトレーニング可能なモデルをもたらすことを示しました。これらのネットワークのパフォーマンスは、多くの場合、非スパースベースモデルのパフォーマンスを上回りますが、理由は十分に理解されていませんでした。このホワイトペーパーでは、宝くじ券(LT)アルゴリズムの3つの重要なコンポーネントを調査し、全体の結果に影響を与えることなくそれぞれを大幅に変更できることを示します。これらの要因を除去することにより、LTネットワークが同様に機能する理由についての新しい洞察が得られます。重みをゼロに設定することが重要である理由、再初期化されたネットワークトレインを作成するために必要なすべての兆候、およびマスキングがトレーニングのように動作する理由を示します。最後に、トレーニングされていないランダムに初期化されたネットワークに適用できるマスクであるスーパーマスクの存在を発見し、偶然よりもはるかに優れたパフォーマンスのモデルを生成します(MNISTで86%、CIFAR-10で41%)。
The recent "Lottery Ticket Hypothesis" paper by Frankle & Carbin showed that a simple approach to creating sparse networks (keeping the large weights) results in models that are trainable from scratch, but only when starting from the same initial weights. The performance of these networks often exceeds the performance of the non-sparse base model, but for reasons that were not well understood. In this paper we study the three critical components of the Lottery Ticket (LT) algorithm, showing that each may be varied significantly without impacting the overall results. Ablating these factors leads to new insights for why LT networks perform as well as they do. We show why setting weights to zero is important, how signs are all you need to make the reinitialized network train, and why masking behaves like training. Finally, we discover the existence of Supermasks, masks that can be applied to an untrained, randomly initialized network to produce a model with performance far better than chance (86% on MNIST, 41% on CIFAR-10).