バッチ正規化(BN)は、正規化コンポーネントとそれに続くアフィン変換で構成され、ディープニューラルネットワークのトレーニングに不可欠になっています。ネットワーク内の各BNの標準初期化により、アフィン変換スケールが設定され、それぞれ1と0にシフトされます。ただし、トレーニング後、これらのパラメーターは初期化からあまり変更されないことがわかりました。さらに、正規化プロセスでは依然として過度に大きな値が生成される可能性があることに気付きました。これはトレーニングには望ましくありません。 BNの定式化を再検討し、前述の問題に対処するためのBNの新しい初期化方法と更新アプローチを示します。実験は、適切なBNスケールの初期化がパフォーマンスに与えるプラスの影響を強調および実証し、評価に厳密な統計的有意性テストを使用するように設計されています。このアプローチは、追加の計算コストなしで既存の実装で使用できます。ソースコードはhttps://github.com/osu-cvl/revisiting-bn-initで入手できます。
Batch normalization (BN) is comprised of a normalization component followed by an affine transformation and has become essential for training deep neural networks. Standard initialization of each BN in a network sets the affine transformation scale and shift to 1 and 0, respectively. However, after training we have observed that these parameters do not alter much from their initialization. Furthermore, we have noticed that the normalization process can still yield overly large values, which is undesirable for training. We revisit the BN formulation and present a new initialization method and update approach for BN to address the aforementioned issues. Experiments are designed to emphasize and demonstrate the positive influence of proper BN scale initialization on performance, and use rigorous statistical significance tests for evaluation. The approach can be used with existing implementations at no additional computational cost. Source code is available at https://github.com/osu-cvl/revisiting-bn-init.