arXiv reaDer
拡張SGDの説明可能なメトリックの活用
Exploiting Explainable Metrics for Augmented SGD
ディープラーニングの一般化の特徴を説明することは、高度な機械学習の新しいトピックです。確率的最適化の下での学習が実際にどのように機能するか、および特定の戦略が他の戦略よりも優れている理由について、いくつかの未回答の質問があります。このホワイトペーパーでは、次の質問に対処します。深いニューラルネットワークの中間層を調べて、各層の学習品質を識別および定量化できますか?この質問を念頭に置いて、低ランクの因数分解フレームワークを使用してネットワークのレイヤー内の冗長な情報を測定し、特定のオプティマイザー、ネットワーク、およびデータセットの一般化パフォーマンスと高度に相関する複雑さの測定値を定量化する新しい説明性メトリックを提案します。その後、これらのメトリックを活用して、各層の学習率を適応的に調整して一般化パフォーマンスを向上させることにより、確率的勾配降下(SGD)オプティマイザーを強化します。拡張されたSGD(RMSGDと呼ばれる)は、SOTAメソッドと比較して最小限の計算オーバーヘッドを導入し、アプリケーション、アーキテクチャ、およびデータセット全体で強力な一般化特性を示すことにより、それらを上回ります。
Explaining the generalization characteristics of deep learning is an emerging topic in advanced machine learning. There are several unanswered questions about how learning under stochastic optimization really works and why certain strategies are better than others. In this paper, we address the following question: can we probe intermediate layers of a deep neural network to identify and quantify the learning quality of each layer? With this question in mind, we propose new explainability metrics that measure the redundant information in a network's layers using a low-rank factorization framework and quantify a complexity measure that is highly correlated with the generalization performance of a given optimizer, network, and dataset. We subsequently exploit these metrics to augment the Stochastic Gradient Descent (SGD) optimizer by adaptively adjusting the learning rate in each layer to improve in generalization performance. Our augmented SGD -- dubbed RMSGD -- introduces minimal computational overhead compared to SOTA methods and outperforms them by exhibiting strong generalization characteristics across application, architecture, and dataset.
updated: Thu Mar 31 2022 00:16:44 GMT+0000 (UTC)
published: Thu Mar 31 2022 00:16:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト