arXiv reaDer
勾配ノルムを考慮した最小化は、一次平坦性を追求し、一般化を改善します
Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization
最近では、フラットな最小値が一般化の改善に効果的であることが証明されており、シャープネスを考慮した最小化 (SAM) が最先端のパフォーマンスを実現しています。しかし、SAM とそのフォローアップで議論されている平坦性の現在の定義は、0 次の平坦性 (つまり、摂動半径内の最悪の場合の損失) に限定されています。与えられた摂動半径内に単一の最小値または複数の最小値がある場合の両方で、一般化誤差が小さい最小値と一般化誤差が大きい最小値を区別するには、ゼロ次の平坦性が不十分である可能性があることを示します。したがって、極小値でのヘッシアンの最大固有値と SAM の正則化関数の両方を制限する摂動半径内の最大勾配ノルムに焦点を当てた、より強力な平坦性の尺度である 1 次平坦性を提示します。また、Gradient norm Aware Minimization (GAM) という名前の新しいトレーニング手順を提示して、すべての方向にわたって均一に小さな曲率を持つ最小値を求めます。実験結果は、GAM がさまざまなデータセットやネットワークで SGD や AdamW などの現在のオプティマイザーでトレーニングされたモデルの一般化を改善することを示しています。さらに、GAM は SAM がより平坦な最小値を見つけ、より良い一般化を達成するのに役立つことを示します。
Recently, flat minima are proven to be effective for improving generalization and sharpness-aware minimization (SAM) achieves state-of-the-art performance. Yet the current definition of flatness discussed in SAM and its follow-ups are limited to the zeroth-order flatness (i.e., the worst-case loss within a perturbation radius). We show that the zeroth-order flatness can be insufficient to discriminate minima with low generalization error from those with high generalization error both when there is a single minimum or multiple minima within the given perturbation radius. Thus we present first-order flatness, a stronger measure of flatness focusing on the maximal gradient norm within a perturbation radius which bounds both the maximal eigenvalue of Hessian at local minima and the regularization function of SAM. We also present a novel training procedure named Gradient norm Aware Minimization (GAM) to seek minima with uniformly small curvature across all directions. Experimental results show that GAM improves the generalization of models trained with current optimizers such as SGD and AdamW on various datasets and networks. Furthermore, we show that GAM can help SAM find flatter minima and achieve better generalization.
updated: Fri Mar 03 2023 16:58:53 GMT+0000 (UTC)
published: Fri Mar 03 2023 16:58:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト