剪定は、推論のパフォーマンスを向上させるためのトレーニング後に不要な構造をニューラルネットワークから削除するための確立された手法です。最近のいくつかの結果では、トレーニング中に同様の利点を提供するために、初期化時にプルーニングの可能性を探っています。特に、「宝くじの仮説」は、典型的なニューラルネットワークには、相応の数のステップで同様の精度にトレーニングできる小さなサブネットワークが含まれていると推測しています。この主張の証拠は、反復マグニチュードプルーニング(IMP)に基づく手順が、このようなサブネットワークを小さなビジョンタスクで遡って確実に見つけることです。ただし、IMPはより深いネットワークでは失敗し、プルーニングされたネットワークをトレーニングまたはトレーニングする前にプルーニングする提案された方法では、同様のスケーリング制限が発生します。このホワイトペーパーでは、これらの取り組みは初期化時に正確にプルーニングに重点を置いているため、より深いネットワークで苦労していると主張します。 IMPを変更して、反復0ではなくトレーニングの早い段階(0.1%から7%まで)でプルーニングすることで取得できたサブネットワークを検索します。この変更により、より深いネットワークの小さなサブネットワーク(Resnetで80%のスパース性など)が見つかります。 -50)トレーニングプロセスを完了して、より困難なタスク(ImageNetなど)で元のネットワークの精度に合わせることができます。 IMPが反復0で失敗する状況では、プルーニングを遅らせることによる精度の利点は、トレーニングの最初の反復よりも急速に発生します。これらの動作を説明するために、サブネットワークの「安定性」を調査します。精度がこのように向上すると、IMPサブネットワークは完全なネットワークのパラメーターに近いパラメーターに学習し、勾配ノイズに直面して一貫性が向上します。これらの結果は、トレーニングの早い段階で大規模ネットワークをプルーニングする機会と宝くじの仮説の根底にある行動への新しい洞察を提供します
Pruning is a well-established technique for removing unnecessary structure from neural networks after training to improve the performance of inference. Several recent results have explored the possibility of pruning at initialization time to provide similar benefits during training. In particular, the "lottery ticket hypothesis" conjectures that typical neural networks contain small subnetworks that can train to similar accuracy in a commensurate number of steps. The evidence for this claim is that a procedure based on iterative magnitude pruning (IMP) reliably finds such subnetworks retroactively on small vision tasks. However, IMP fails on deeper networks, and proposed methods to prune before training or train pruned networks encounter similar scaling limitations. In this paper, we argue that these efforts have struggled on deeper networks because they have focused on pruning precisely at initialization. We modify IMP to search for subnetworks that could have been obtained by pruning early in training (0.1% to 7% through) rather than at iteration 0. With this change, it finds small subnetworks of deeper networks (e.g., 80% sparsity on Resnet-50) that can complete the training process to match the accuracy of the original network on more challenging tasks (e.g., ImageNet). In situations where IMP fails at iteration 0, the accuracy benefits of delaying pruning accrue rapidly over the earliest iterations of training. To explain these behaviors, we study subnetwork "stability," finding that - as accuracy improves in this fashion - IMP subnetworks train to parameters closer to those of the full network and do so with improved consistency in the face of gradient noise. These results offer new insights into the opportunity to prune large-scale networks early in training and the behaviors underlying the lottery ticket hypothesis