arXiv reaDer
バッチ正規化は、損失の1次および2次導関数に対してブラインドです
Batch Normalization Is Blind to the First and Second Derivatives of the Loss
この論文では、損失の一次導関数と二次導関数の逆伝播に対するBN演算の影響を証明します。損失関数のテイラー級数展開を行うと、BN演算が損失の1次項の影響と2次項のほとんどの影響をブロックすることを証明します。また、このような問題は、BN操作の標準化フェーズが原因であることがわかります。実験結果により、理論上の結論が検証され、BN操作が特定のタスクの特徴表現に大きく影響することがわかりました。この場合、さまざまなサンプルの損失が同様の分析式を共有します。
In this paper, we prove the effects of the BN operation on the back-propagation of the first and second derivatives of the loss. When we do the Taylor series expansion of the loss function, we prove that the BN operation will block the influence of the first-order term and most influence of the second-order term of the loss. We also find that such a problem is caused by the standardization phase of the BN operation. Experimental results have verified our theoretical conclusions, and we have found that the BN operation significantly affects feature representations in specific tasks, where losses of different samples share similar analytic formulas.
updated: Thu Jun 02 2022 09:29:20 GMT+0000 (UTC)
published: Mon May 30 2022 14:43:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト