宝くじの仮説(LTH)とシングルショットネットワークプルーニング(SNIP)に関する作業は、現在、トレーニング後のプルーニング(反復マグニチュードプルーニング)とトレーニング前のプルーニング(初期化時のプルーニング)で多くの注目を集めています。前者の方法は非常に大きな計算コストに悩まされ、後者は通常不十分なパフォーマンスに苦しんでいます。比較すると、トレーニング中の剪定では、トレーニング/推論の効率と同等のパフォーマンスを一時的に同時に享受する剪定方法のクラスは、あまり検討されていません。トレーニング中の剪定をよりよく理解するために、剪定の可塑性(剪定されたネットワークが元のパフォーマンスを回復する能力)の観点から、トレーニング全体の剪定の効果を定量的に調査します。剪定の可塑性は、文献における神経ネットワークの剪定に関する他のいくつかの経験的観察を説明するのに役立ちます。さらに、剪定の可塑性は、神経再生と呼ばれる脳に触発されたメカニズムを注入することによって、つまり剪定と同じ数の接続を再生することによって大幅に改善できることを発見しました。最先端の技術を進歩させる、ゼロコスト神経再生を伴う段階的剪定(GraNet)と呼ばれる新しい段階的規模剪定(GMP)法を設計します。おそらく最も印象的なのは、そのスパースからスパースへのバージョンが初めて、トレーニング時間を延長することなく、ImageNet上のResNet-50を使用したさまざまなデンスからスパースへの方法よりもスパースからスパースへのトレーニングパフォーマンスを向上させることです。 https://github.com/Shiweiliuiiiiiii/GraNetですべてのコードをリリースします。
Works on lottery ticket hypothesis (LTH) and single-shot network pruning (SNIP) have raised a lot of attention currently on post-training pruning (iterative magnitude pruning), and before-training pruning (pruning at initialization). The former method suffers from an extremely large computation cost and the latter usually struggles with insufficient performance. In comparison, during-training pruning, a class of pruning methods that simultaneously enjoys the training/inference efficiency and the comparable performance, temporarily, has been less explored. To better understand during-training pruning, we quantitatively study the effect of pruning throughout training from the perspective of pruning plasticity (the ability of the pruned networks to recover the original performance). Pruning plasticity can help explain several other empirical observations about neural network pruning in literature. We further find that pruning plasticity can be substantially improved by injecting a brain-inspired mechanism called neuroregeneration, i.e., to regenerate the same number of connections as pruned. We design a novel gradual magnitude pruning (GMP) method, named gradual pruning with zero-cost neuroregeneration (GraNet), that advances state of the art. Perhaps most impressively, its sparse-to-sparse version for the first time boosts the sparse-to-sparse training performance over various dense-to-sparse methods with ResNet-50 on ImageNet without extending the training time. We release all codes in https://github.com/Shiweiliuiiiiiii/GraNet.