arXiv reaDer
Adam: 確率的最適化のための手法
Adam: A Method for Stochastic Optimization
低次モーメントの適応的推定に基づく、確率的目的関数の一次勾配ベース最適化アルゴリズムであるAdamを紹介する。この手法は、実装が簡単で、計算効率が高く、必要なメモリが少なく、勾配の対角線再スケーリングに不変であり、データやパラメータが大きい問題に適している。また、この手法は、非定常な目標や、非常にノイズの多い、あるいは疎な勾配を持つ問題にも適している。ハイパーパラメータは直感的な解釈が可能であり、一般的にはほとんどチューニングを必要としない。また、Adamがインスピレーションを受けた関連アルゴリズムとの関連性についても議論する。また、このアルゴリズムの理論的な収束特性を分析し、オンライン凸最適化のフレームワークの下で最もよく知られている結果に匹敵する収束率の損失限界を提供する。実証的な結果から、Adamが実際にうまく機能し、他の確率的最適化手法と比較して有利であることが示されている。最後に、無限大ノルムに基づくAdamの変形であるAdaMaxについて議論する。
We introduce Adam, an algorithm for first-order gradient-based optimization of stochastic objective functions, based on adaptive estimates of lower-order moments. The method is straightforward to implement, is computationally efficient, has little memory requirements, is invariant to diagonal rescaling of the gradients, and is well suited for problems that are large in terms of data and/or parameters. The method is also appropriate for non-stationary objectives and problems with very noisy and/or sparse gradients. The hyper-parameters have intuitive interpretations and typically require little tuning. Some connections to related algorithms, on which Adam was inspired, are discussed. We also analyze the theoretical convergence properties of the algorithm and provide a regret bound on the convergence rate that is comparable to the best known results under the online convex optimization framework. Empirical results demonstrate that Adam works well in practice and compares favorably to other stochastic optimization methods. Finally, we discuss AdaMax, a variant of Adam based on the infinity norm.
updated: Mon Jan 30 2017 01:27:54 GMT+0000 (UTC)
published: Mon Dec 22 2014 13:54:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト