arXiv reaDer
SUPER-ADAM:適応勾配のより高速で普遍的なフレームワーク
SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients
適応勾配法は、多くの機械学習の問題を解決するための優れたパフォーマンスを示しています。複数の適応勾配法が最近研究されましたが、それらは主に経験的または理論的側面のいずれかに焦点を当てており、特定の適応学習率を使用することによって特定の問題に対してのみ機能します。したがって、一般的な問題を解決するための理論的保証を備えた適応勾配の実用的なアルゴリズムのための普遍的なフレームワークを設計することが望まれる。このギャップを埋めるために、既存のほとんどの適応勾配フォームを含むユニバーサル適応マトリックスを導入することにより、適応勾配のより高速でユニバーサルなフレームワーク(つまり、SUPER-ADAM)を提案します。さらに、私たちのフレームワークは、勢いと分散を減らす手法を柔軟に統合できます。特に、私たちの新しいフレームワークは、非凸設定での適応勾配法の収束分析サポートを提供します。理論的分析では、SUPER-ADAMアルゴリズムが、非凸最適化のϵ停留点を見つけるためのO(ϵ ^ -3)の最もよく知られている勾配(つまり、確率的1次オラクル(SFO))の複雑さを達成できることを証明します。これは、確率的で滑らかな非凸最適化の下限と一致します。数値実験では、さまざまな深層学習タスクを使用して、アルゴリズムが既存の適応アルゴリズムよりも一貫して優れていることを検証します。コードはhttps://github.com/LIJUNYI95/SuperAdamで入手できます
Adaptive gradient methods have shown excellent performances for solving many machine learning problems. Although multiple adaptive gradient methods were recently studied, they mainly focus on either empirical or theoretical aspects and also only work for specific problems by using some specific adaptive learning rates. Thus, it is desired to design a universal framework for practical algorithms of adaptive gradients with theoretical guarantee to solve general problems. To fill this gap, we propose a faster and universal framework of adaptive gradients (i.e., SUPER-ADAM) by introducing a universal adaptive matrix that includes most existing adaptive gradient forms. Moreover, our framework can flexibly integrate the momentum and variance reduced techniques. In particular, our novel framework provides the convergence analysis support for adaptive gradient methods under the nonconvex setting. In theoretical analysis, we prove that our SUPER-ADAM algorithm can achieve the best known gradient (i.e., stochastic first-order oracle (SFO)) complexity of O(ϵ^-3) for finding an ϵ-stationary point of nonconvex optimization, which matches the lower bound for stochastic smooth nonconvex optimization. In numerical experiments, we employ various deep learning tasks to validate that our algorithm consistently outperforms the existing adaptive algorithms. Code is available at https://github.com/LIJUNYI95/SuperAdam
updated: Fri Jan 07 2022 23:35:23 GMT+0000 (UTC)
published: Tue Jun 15 2021 15:16:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト