バッチ正規化 (BN) は、ディープ ニューラル ネットワーク (DNN) をトレーニングするための一般的な手法です。 BN は、スケーリングとシフトを使用してミニバッチのアクティベーションを正規化し、収束を加速し、一般化を改善します。最近提案された反復正規化 (IterNorm) 法は、ニュートン法を使用して活性化を繰り返し白色化することにより、これらの特性を改善します。ただし、ニュートン法は各トレーニング ステップで個別にホワイトニング マトリックスを初期化するため、連続するステップ間で情報が共有されることはありません。この作業では、各時間ステップでホワイトニング マトリックスを正確に計算する代わりに、提案された確率的ホワイトニング バッチ正規化 (SWBN) アルゴリズムを使用して、オンライン形式でトレーニング中に徐々に推定します。 SWBN は DNN の収束率と一般化を改善しますが、その計算オーバーヘッドは IterNorm よりも少ないことを示します。提案された方法は効率が高いため、多数の層を持つほとんどの DNN アーキテクチャで簡単に採用できます。包括的な実験と BN、IterNorm、SWBN 層間の比較を提供して、従来の (多ショット) 画像分類および少数ショット分類タスクで提案された手法の有効性を実証します。
Batch Normalization (BN) is a popular technique for training Deep Neural Networks (DNNs). BN uses scaling and shifting to normalize activations of mini-batches to accelerate convergence and improve generalization. The recently proposed Iterative Normalization (IterNorm) method improves these properties by whitening the activations iteratively using Newton's method. However, since Newton's method initializes the whitening matrix independently at each training step, no information is shared between consecutive steps. In this work, instead of exact computation of whitening matrix at each time step, we estimate it gradually during training in an online fashion, using our proposed Stochastic Whitening Batch Normalization (SWBN) algorithm. We show that while SWBN improves the convergence rate and generalization of DNNs, its computational overhead is less than that of IterNorm. Due to the high efficiency of the proposed method, it can be easily employed in most DNN architectures with a large number of layers. We provide comprehensive experiments and comparisons between BN, IterNorm, and SWBN layers to demonstrate the effectiveness of the proposed technique in conventional (many-shot) image classification and few-shot classification tasks.