BatchNormに触発されて、ディープラーニングで正規化レイヤーが爆発的に増加しました。最近の研究により、BatchNormの多くの有益な特性が特定され、その成功が説明されています。ただし、代替の正規化レイヤーの追求を考えると、これらのプロパティを一般化して、特定のレイヤーの成功/失敗を正確に予測できるようにする必要があります。この作業では、ランダムに初期化されたディープニューラルネットワーク(DNN)のBatchNormの既知のプロパティを、最近提案されたいくつかの正規化レイヤーに拡張することにより、この目標に向けた第一歩を踏み出します。主な調査結果は次のとおりです。(i)BatchNormと同様に、アクティベーションベースの正規化レイヤーはResNetでのアクティベーションの指数関数的成長を防ぐことができますが、パラメトリック手法には明示的な救済策が必要です。 (ii)GroupNormを使用すると、異なるサンプルに異なるアクティベーションが割り当てられ、有益な順伝播が保証されますが、グループサイズを大きくすると、異なるサンプルのアクティベーションがますます区別できなくなり、LayerNormを使用したモデルの収束速度が遅くなります。 (iii)グループサイズが小さいと、初期のレイヤーで勾配ノルムが大きくなるため、インスタンスの正規化でのトレーニングの不安定性の問題を説明し、GroupNormでの速度と安定性のトレードオフを示します。全体として、私たちの分析は、深層学習における正規化手法の成功を支える統一された一連のメカニズムを明らかにし、DNN正規化レイヤーの広大な設計空間を体系的に探索するためのコンパスを提供します。
Inspired by BatchNorm, there has been an explosion of normalization layers in deep learning. Recent works have identified a multitude of beneficial properties in BatchNorm to explain its success. However, given the pursuit of alternative normalization layers, these properties need to be generalized so that any given layer's success/failure can be accurately predicted. In this work, we take a first step towards this goal by extending known properties of BatchNorm in randomly initialized deep neural networks (DNNs) to several recently proposed normalization layers. Our primary findings follow: (i) similar to BatchNorm, activations-based normalization layers can prevent exponential growth of activations in ResNets, but parametric techniques require explicit remedies; (ii) use of GroupNorm can ensure an informative forward propagation, with different samples being assigned dissimilar activations, but increasing group size results in increasingly indistinguishable activations for different samples, explaining slow convergence speed in models with LayerNorm; and (iii) small group sizes result in large gradient norm in earlier layers, hence explaining training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. Overall, our analysis reveals a unified set of mechanisms that underpin the success of normalization methods in deep learning, providing us with a compass to systematically explore the vast design space of DNN normalization layers.