arXiv reaDer
分散の伝達と正規化を掘り下げる:平均勾配のシフトによりネットワークが崩壊する
Delving into Variance Transmission and Normalization: Shift of Average Gradient Makes the Network Collapse
正規化操作は、最先端のニューラルネットワークに不可欠であり、大きな学習率(LR)でネットワークを最初からトレーニングすることができます。 BNと重み正規化(WN)の関係を調査することにより、分散伝達の観点からバッチ正規化(BN)の実際の効果を説明しようとします。この作業では、平均勾配のシフトの問題がすべての畳み込み(conv)層の分散を増幅することを示します。平均勾配のシフトを解決するために、convフィルターに使用される高速で堅牢なミニバッチサイズのモジュールであるパラメトリック重み標準化(PWS)を提案します。 PWSはBNの高速化を提供できます。さらに、計算量が少なく、convレイヤーの出力を変更しません。 PWSを使用すると、出力を正規化することなく、ネットワークを高速に収束できます。この結果は、平均勾配のシフトの説得力を高め、分散伝達の観点からBNが機能する理由を説明します。コードと付録はhttps://github.com/lyxzzz/PWSConvで入手できます。
Normalization operations are essential for state-of-the-art neural networks and enable us to train a network from scratch with a large learning rate (LR). We attempt to explain the real effect of Batch Normalization (BN) from the perspective of variance transmission by investigating the relationship between BN and Weights Normalization (WN). In this work, we demonstrate that the problem of the shift of the average gradient will amplify the variance of every convolutional (conv) layer. We propose Parametric Weights Standardization (PWS), a fast and robust to mini-batch size module used for conv filters, to solve the shift of the average gradient. PWS can provide the speed-up of BN. Besides, it has less computation and does not change the output of a conv layer. PWS enables the network to converge fast without normalizing the outputs. This result enhances the persuasiveness of the shift of the average gradient and explains why BN works from the perspective of variance transmission. The code and appendix will be made available on https://github.com/lyxzzz/PWSConv.
updated: Mon Mar 22 2021 05:40:46 GMT+0000 (UTC)
published: Mon Mar 22 2021 05:40:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト