効率的な宝くじの検索: データが少ないほどよい
Efficient Lottery Ticket Finding: Less Data is More
宝くじチケット仮説 (LTH) は、高密度ネットワークの当選チケット (疎だが重要なサブネットワーク) の存在を明らかにします。これは、ランダムな初期化とは別にトレーニングして、後者の精度に一致させることができます。ただし、当選チケットを見つけるには、特に大規模なデータセット (ImageNet など) の場合、train-prune-retrain プロセスで面倒な計算が必要になり、その実用的な利点が制限されます。このペーパーでは、完全なトレーニング セットを使用するのではなく、プルーニング対応クリティカル セット (PrAC セット) と呼ばれるデータの特別に選択されたサブセットのみを使用して宝くじチケットをより効率的に見つけるための新しい視点を探ります。 PrAC セットの概念は、深いネットワークには、トレーニング中に記憶するのが難しいサンプル、またはプルーニング中に忘れやすいサンプルがあるという最近の観察に触発されました。したがって、PrAC セットは、高密度モデルの最も困難で有益な例をキャプチャすると仮定されます。非常にコンパクトな PrAC セットで高密度ネットワークをトレーニングおよびプルーニングすることで、高品質の当選チケットを見つけることができることがわかりました。これにより、チケット検索プロセスのトレーニングの反復を大幅に節約できます。広範な実験により、さまざまなデータセットとネットワーク アーキテクチャ全体で私たちの提案が検証されます。具体的には、CIFAR-10、CIFAR-100、および Tiny ImageNet では、トレーニング セット サイズの 35.32% ~ 78.19% に有効な PrAC セットが配置されています。それに加えて、対応する高密度ネットワークで同じ競争力のある勝利チケットを取得できますが、トレーニングの反復をそれぞれ最大 82.85% ~ 92.77%、63.54% ~ 74.92%、76.14% ~ 86.56% 節約できます。重要なのは、見つかった PrAC セットがさまざまなネットワーク アーキテクチャ間で再利用可能であることです。これにより、PrAC セットを見つけるための追加コストを償却でき、効率的な宝くじチケット検索のための実用的な体制が得られます。
The lottery ticket hypothesis (LTH) reveals the existence of winning tickets (sparse but critical subnetworks) for dense networks, that can be trained in isolation from random initialization to match the latter's accuracies. However, finding winning tickets requires burdensome computations in the train-prune-retrain process, especially on large-scale datasets (e.g., ImageNet), restricting their practical benefits. This paper explores a new perspective on finding lottery tickets more efficiently, by doing so only with a specially selected subset of data, called Pruning-Aware Critical set (PrAC set), rather than using the full training set. The concept of PrAC set was inspired by the recent observation, that deep networks have samples that are either hard to memorize during training, or easy to forget during pruning. A PrAC set is thus hypothesized to capture those most challenging and informative examples for the dense model. We observe that a high-quality winning ticket can be found with training and pruning the dense network on the very compact PrAC set, which can substantially save training iterations for the ticket finding process. Extensive experiments validate our proposal across diverse datasets and network architectures. Specifically, on CIFAR-10, CIFAR-100, and Tiny ImageNet, we locate effective PrAC sets at 35.32%~78.19% of their training set sizes. On top of them, we can obtain the same competitive winning tickets for the corresponding dense networks, yet saving up to 82.85%~92.77%, 63.54%~74.92%, and 76.14%~86.56% training iterations, respectively. Crucially, we show that a PrAC set found is reusable across different network architectures, which can amortize the extra cost of finding PrAC sets, yielding a practical regime for efficient lottery ticket finding.
