arXiv reaDer
Heavy-Tailed Universality Predicts Trends in Test Accuracies for Very Large Pre-Trained Deep Neural Networks
 同じまたは類似のアーキテクチャを持ち、同じデータセットでトレーニングされたが、異なるソルバー、パラメーター、ハイパーパラメーター、正則化などでトレーニングされた2つ以上のディープニューラルネットワーク(DNN)がある場合、どのDNNが最適かを予測できますテストの正確性、およびテストデータを覗かずにこれを実行できますか?このペーパーでは、これに答えるために、新しいヘビーテール付き自己正則化理論(HT-SR)を使用する方法を示します。 HT-SRは、とりわけ、現代のDNNがヘビーテール機構の普遍性(HT-MU)と呼ばれるものを示すことを示唆しています。これは、層の重み行列の相関が指数のあるべき法則(PL)に適合することを意味しますHeavy-Tailed Random Matrix Theory(HT-RMT)の共通の普遍性クラス。これから、PL指数の加重平均であるユニバーサルキャパシティコントロールメトリックを開発します。小さいおもちゃのNNを検討するのではなく、ImagetNetでトレーニングされた15を超えるさまざまなアーキテクチャに及ぶ50を超える大規模な事前トレーニング済みDNNを調べます。それぞれが異なるテスト精度を持つことが報告されています。この新しいキャパシティメトリックは、各アーキテクチャ(VGG16 /.../ VGG19、ResNet10 /.../ ResNet152など)を調べて、これらのDNNの報告されたテスト精度と非常によく相関することを示します。また、層の重み行列の対数フロベニウスノルムの平均として、より馴染みのあるProduct Normのキャパシティメジャーによってメトリックを近似する方法も示します。このアプローチでは、基礎となるDNNやその損失関数を変更する必要はありません。モデルをトレーニングする必要はありません(ただし、トレーニングの監視に使用できます)。
Given two or more Deep Neural Networks (DNNs) with the same or similar architectures, and trained on the same dataset, but trained with different solvers, parameters, hyper-parameters, regularization, etc., can we predict which DNN will have the best test accuracy, and can we do so without peeking at the test data? In this paper, we show how to use a new Theory of Heavy-Tailed Self-Regularization (HT-SR) to answer this. HT-SR suggests, among other things, that modern DNNs exhibit what we call Heavy-Tailed Mechanistic Universality (HT-MU), meaning that the correlations in the layer weight matrices can be fit to a power law (PL) with exponents that lie in common Universality classes from Heavy-Tailed Random Matrix Theory (HT-RMT). From this, we develop a Universal capacity control metric that is a weighted average of PL exponents. Rather than considering small toy NNs, we examine over 50 different, large-scale pre-trained DNNs, ranging over 15 different architectures, trained on ImagetNet, each of which has been reported to have different test accuracies. We show that this new capacity metric correlates very well with the reported test accuracies of these DNNs, looking across each architecture (VGG16/.../VGG19, ResNet10/.../ResNet152, etc.). We also show how to approximate the metric by the more familiar Product Norm capacity measure, as the average of the log Frobenius norm of the layer weight matrices. Our approach requires no changes to the underlying DNN or its loss function, it does not require us to train a model (although it could be used to monitor training), and it does not even require access to the ImageNet data.
updated: Sun Jan 26 2020 05:24:40 GMT+0000 (UTC)
published: Thu Jan 24 2019 08:27:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト