学習率ウォームアップヒューリスティックは、トレーニングの安定化、収束の加速、RMSpropやAdamなどの適応型確率的最適化アルゴリズムの一般化の改善で顕著な成功を収めています。ここでは、そのメカニズムを詳細に研究します。ウォームアップの背後にある理論を追求し、適応学習率の問題を特定します(つまり、初期段階で問題に大きな分散を持っています)、ウォームアップが分散削減手法として機能することを提案し、仮説を検証するための経験的および理論的証拠を提供します。適応学習率の分散を修正する用語を導入することにより、Adamの新しいバリアントであるRAdamをさらに提案します。画像分類、言語モデリング、および神経機械翻訳に関する広範な実験結果により、直感が検証され、提案された方法の有効性と堅牢性が実証されます。すべての実装は、https://github.com/LiyuanLucasLiu/RAdamで入手できます。
The learning rate warmup heuristic achieves remarkable success in stabilizing training, accelerating convergence and improving generalization for adaptive stochastic optimization algorithms like RMSprop and Adam. Here, we study its mechanism in details. Pursuing the theory behind warmup, we identify a problem of the adaptive learning rate (i.e., it has problematically large variance in the early stage), suggest warmup works as a variance reduction technique, and provide both empirical and theoretical evidence to verify our hypothesis. We further propose RAdam, a new variant of Adam, by introducing a term to rectify the variance of the adaptive learning rate. Extensive experimental results on image classification, language modeling, and neural machine translation verify our intuition and demonstrate the effectiveness and robustness of our proposed method. All implementations are available at: https://github.com/LiyuanLucasLiu/RAdam.