arXiv reaDer
The Difficulty of Training Sparse Neural Networks
スパースニューラルネットワークのトレーニングの難しさを調査し、スパース領域内の最適化ダイナミクスとエネルギーランドスケープについて新しい観察を行います。 Gale2019の最近の作業であるLiu2018は、ImageNet-2012データセットでトレーニングされたスパースResNet-50アーキテクチャが、プルーニングによって検出されたものよりも大幅に悪いソリューションに収束することを示しています。オプティマイザーの失敗にもかかわらず、初期化から「適切な」ソリューションまで単調に減少する目的を持つ線形パスがあることを示します。さらに、スパース部分空間で「悪い」ソリューションから「良い」ソリューションへの減少する客観的なパスを見つける試みは失敗します。ただし、パスが密な部分空間を通過できるようにすると、2つのソリューション間のパスが一貫して見つかります。これらの調査結果は、スパース部分空間で見つかった停留点をエスケープするために、追加の次元をトラバースする必要がある可能性があることを示唆しています。
We investigate the difficulties of training sparse neural networks and make new observations about optimization dynamics and the energy landscape within the sparse regime. Recent work of Gale2019, Liu2018 has shown that sparse ResNet-50 architectures trained on ImageNet-2012 dataset converge to solutions that are significantly worse than those found by pruning. We show that, despite the failure of optimizers, there is a linear path with a monotonically decreasing objective from the initialization to the "good" solution. Additionally, our attempts to find a decreasing objective path from "bad" solutions to the "good" ones in the sparse subspace fail. However, if we allow the path to traverse the dense subspace, then we consistently find a path between two solutions. These findings suggest traversing extra dimensions may be needed to escape stationary points found in the sparse subspace.
updated: Wed Oct 07 2020 17:38:07 GMT+0000 (UTC)
published: Tue Jun 25 2019 19:21:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト