arXiv reaDer
深層ネットワークのトレーニングのための層ごとの適応モーメントによる確率的勾配法
Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks
NovoGradを提案します。これは、層ごとの勾配正規化と分離された重み減衰を使用した適応確率勾配降下法です。画像分類、音声認識、機械翻訳、および言語モデリングのためのニューラルネットワークの実験では、運動量とAdamまたはAdamWを使用して、適切に調整されたSGDと同等以上のパフォーマンスを発揮します。さらに、NovoGrad(1)は学習率と重みの初期化の選択に対して堅牢であり、(2)大規模なバッチ設定でうまく機能し、(3)Adamよりも2倍小さいメモリフットプリントを持ちます。
We propose NovoGrad, an adaptive stochastic gradient descent method with layer-wise gradient normalization and decoupled weight decay. In our experiments on neural networks for image classification, speech recognition, machine translation, and language modeling, it performs on par or better than well tuned SGD with momentum and Adam or AdamW. Additionally, NovoGrad (1) is robust to the choice of learning rate and weight initialization, (2) works well in a large batch setting, and (3) has two times smaller memory footprint than Adam.
updated: Thu Feb 06 2020 21:40:02 GMT+0000 (UTC)
published: Mon May 27 2019 15:12:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト