arXiv reaDer
重量正規化ファミリと重量減衰の不調和を理解する:ε-shiftedL_2 Regularizer
Understanding the Disharmony between Weight Normalization Family and Weight Decay: ε-shifted L_2 Regularizer
 近年、重量の正規化ファミリの高速収束と潜在的に優れたパフォーマンスのメリットが注目を集めています。これらの方法では、標準化または正規化を使用して、重みWをW 'に変更します。これにより、W'はWの大きさから独立します。驚くべきことに、勾配降下中にWを減衰させる必要があります。深いネットワークが過剰適合するのを防ぐために、重量減衰が広く知られているため、直感に反します。この論文では、重み減衰項12λ|| W || ^ 2が客観的最適化を改善するための有効な学習率を単に変調するだけであり、重み正規化ファミリが複合的に使用される場合、一般化に影響を与えないことを理論的に証明します。さらに、グローバルな最小値の欠落やトレーニングの不安定性など、ウェイト減衰項をウェイト正規化ファミリに導入する際に、いくつかの重大な問題も明らかにします。これらの問題に対処するために、正の定数byだけL_2目標をシフトするϵシフトL_2正規化器を提案します。このような単純な操作により、理論的にはグローバルミニマムの存在が保証され、ネットワークの重みが小さくなりすぎず、こうして勾配フロートのオーバーフローが回避されます。これにより、トレーニングの安定性が大幅に向上し、練習でわずかに優れたパフォーマンスを達成できます。 shiftシフトL_2レギュラーの有効性は、ImageNet、CIFAR-100、およびCOCOデータセットで包括的に検証されています。コードと事前トレーニング済みのモデルは、でリリースされます。
The merits of fast convergence and potentially better performance of the weight normalization family have drawn increasing attention in recent years. These methods use standardization or normalization that changes the weight W to W', which makes W' independent to the magnitude of W. Surprisingly, W must be decayed during gradient descent, otherwise we will observe a severe under-fitting problem, which is very counter-intuitive since weight decay is widely known to prevent deep networks from over-fitting. In this paper, we theoretically prove that the weight decay term 12λ||W||^2 merely modulates the effective learning rate for improving objective optimization, and has no influence on generalization when the weight normalization family is compositely employed. Furthermore, we also expose several critical problems when introducing weight decay term to weight normalization family, including the missing of global minimum and training instability. To address these problems, we propose an ϵ-shifted L_2 regularizer, which shifts the L_2 objective by a positive constant ϵ. Such a simple operation can theoretically guarantee the existence of global minimum, while preventing the network weights from being too small and thus avoiding gradient float overflow. It significantly improves the training stability and can achieve slightly better performance in our practice. The effectiveness of ϵ-shifted L_2 regularizer is comprehensively validated on the ImageNet, CIFAR-100, and COCO datasets. Our codes and pretrained models will be released in
updated: Thu Nov 14 2019 03:31:13 GMT+0000 (UTC)
published: Thu Nov 14 2019 03:31:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト