深層ニューラルネットワークの訓練は、訓練中に前の層のパラメータが変化すると、各層の入力の分布が変化するという事実によって複雑になる。このため、低い学習率と慎重なパラメータ初期化が必要であるため学習が遅くなり、非線形性が飽和したモデルの学習が困難になることが知られています。我々はこの現象を内部共変量シフトと呼び、レイヤ入力を正規化することでこの問題に対処する。我々の手法は、正規化をモデルアーキテクチャの一部とし、学習のミニバッチごとに正規化を行うことに強みを持っている。バッチ正規化により、より高い学習率を使用することができ、初期化についての注意が少なくて済むようになる。また、正則化の役割も果たし、場合によってはDropoutの必要性を排除することができる。最新の画像分類モデルに適用すると、バッチ正規化は14倍少ない学習ステップで同じ精度を達成し、元のモデルを大幅に上回る結果が得られた。バッチ正規化されたネットワークのアンサンブルを使用することで、ImageNetの分類で公表されている最良の結果を改善した: 4.9%のトップ5のバリデーションエラー(および4.8%のテストエラー)を達成し、これは人間の評価者の精度を上回る。
Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful parameter initialization, and makes it notoriously hard to train models with saturating nonlinearities. We refer to this phenomenon as internal covariate shift, and address the problem by normalizing layer inputs. Our method draws its strength from making normalization a part of the model architecture and performing the normalization for each training mini-batch. Batch Normalization allows us to use much higher learning rates and be less careful about initialization. It also acts as a regularizer, in some cases eliminating the need for Dropout. Applied to a state-of-the-art image classification model, Batch Normalization achieves the same accuracy with 14 times fewer training steps, and beats the original model by a significant margin. Using an ensemble of batch-normalized networks, we improve upon the best published result on ImageNet classification: reaching 4.9% top-5 validation error (and 4.8% test error), exceeding the accuracy of human raters.