ほとんどのニューラルネットワークアーキテクチャの重要なコンポーネントは、バッチ正規化などの正規化レイヤーの使用です。ディープアーキテクチャの最適化における一般的な使用と大きなユーティリティにもかかわらず、バッチ正規化を一般的に改善することと、他の機能強化に役立つ状況を理解することの両方に挑戦してきました。このペーパーでは、バッチ正規化の一般的な形式とそれらが機能する状況に対する4つの改善点を特定し、トレーニング中に追加の計算を必要とせずにすべてのバッチサイズでパフォーマンスを向上させます。これらの貢献には、推論の正規化統計における現在の例を推論する方法の提案、トレーニングと推論の不一致の修正が含まれます。小規模および中規模のバッチサイズに対するGhost Batch Normalizationの強力な正則化効果の認識と検証。スケーリングおよびシフトパラメーターガンマおよびベータに対する重量減衰正則化の影響を調べます。バッチとグループの正規化の長所を組み合わせて、非常に小さなバッチサイズの新しい正規化アルゴリズムを特定します。 CIFAR-100、SVHN、Caltech-256、Oxford Flowers-102、CUB-2011、ImageNetの6つのデータセットで結果を経験的に検証します。
A key component of most neural network architectures is the use of normalization layers, such as Batch Normalization. Despite its common use and large utility in optimizing deep architectures, it has been challenging both to generically improve upon Batch Normalization and to understand the circumstances that lend themselves to other enhancements. In this paper, we identify four improvements to the generic form of Batch Normalization and the circumstances under which they work, yielding performance gains across all batch sizes while requiring no additional computation during training. These contributions include proposing a method for reasoning about the current example in inference normalization statistics, fixing a training vs. inference discrepancy; recognizing and validating the powerful regularization effect of Ghost Batch Normalization for small and medium batch sizes; examining the effect of weight decay regularization on the scaling and shifting parameters gamma and beta; and identifying a new normalization algorithm for very small batch sizes by combining the strengths of Batch and Group Normalization. We validate our results empirically on six datasets: CIFAR-100, SVHN, Caltech-256, Oxford Flowers-102, CUB-2011, and ImageNet.