ディープ ニューラル ネットワークは、複雑で非凸の損失ランドスケープが原因で一般化が不十分になることがよくあります。一般的なソリューションの 1 つは Sharpness-Aware Minimization (SAM) です。これは、重みに摂動を加えたときにトレーニング損失の最大化された変化を最小化することで、損失状況を平滑化します。ただし、すべてのパラメーターに対する SAM の無差別な摂動は次善であり、過剰な計算、つまり確率的勾配降下 (SGD) などの一般的なオプティマイザーのオーバーヘッドを 2 倍にします。この論文では、Sparse SAM (SSAM) と呼ばれる効率的で効果的なトレーニング スキームを提案します。これは、バイナリ マスクによってスパース摂動を実現します。スパース マスクを取得するために、フィッシャー情報と動的スパース トレーニングにそれぞれ基づく 2 つのソリューションを提供します。さらに、SSAM が SAM と同じ速度、つまり O(logT/T) で収束できることを理論的に証明します。スパース SAM は、トレーニングを高速化する可能性があるだけでなく、損失状況を効果的に平滑化します。 CIFAR10、CIFAR100、および ImageNet-1K に関する広範な実験結果は、SAM に対する本手法の優れた効率性を確認しており、わずか 50% のスパース性の摂動でパフォーマンスが維持されるか、さらに向上します。コードは https://github.com/Mi-Peng/Sparse-Sharpness-Aware-Minimization で入手できます。
Deep neural networks often suffer from poor generalization caused by complex and non-convex loss landscapes. One of the popular solutions is Sharpness-Aware Minimization (SAM), which smooths the loss landscape via minimizing the maximized change of training loss when adding a perturbation to the weight. However, we find the indiscriminate perturbation of SAM on all parameters is suboptimal, which also results in excessive computation, i.e., double the overhead of common optimizers like Stochastic Gradient Descent (SGD). In this paper, we propose an efficient and effective training scheme coined as Sparse SAM (SSAM), which achieves sparse perturbation by a binary mask. To obtain the sparse mask, we provide two solutions which are based onFisher information and dynamic sparse training, respectively. In addition, we theoretically prove that SSAM can converge at the same rate as SAM, i.e., O(logT/T). Sparse SAM not only has the potential for training acceleration but also smooths the loss landscape effectively. Extensive experimental results on CIFAR10, CIFAR100, and ImageNet-1K confirm the superior efficiency of our method to SAM, and the performance is preserved or even better with a perturbation of merely 50% sparsity. Code is availiable at https://github.com/Mi-Peng/Sparse-Sharpness-Aware-Minimization.