バッチ正規化(BN)は、深いニューラルネットワークをトレーニングするためのユビキタスな手法であり、収束を加速してより高い精度を実現します。ただし、BNには根本的な欠点があることを示しています。それは、トレーニング(ドメイン内)データに非常に固有の低分散機能に依存するようにモデルを動機付け、ドメイン外の例の一般化パフォーマンスを損なうことです。この作業では、最初に、さまざまなアーキテクチャでBNレイヤーを削除すると、ドメイン外エラーと破損エラーが減少し、ドメイン内エラーが増加することを示して、この現象を調査します。次に、教師としてBNを使用せずに同じモデルの凍結コピーを活用する方法であるCounterbalancing Teacher(CT)を提案します。これは、一貫性損失関数を介して重みを大幅に適応させることにより、学生ネットワークの堅牢な表現の学習を強制します。この正則化信号は、以前の作業のようにターゲットドメインからの情報がなくても、予期しないデータシフトでCTが適切に機能するのに役立ちます。過剰パラメーター化された線形回帰設定で、正規化がそのようなドメイン内機能へのモデルの依存につながる理由を理論的に示し、CIFAR-10-C、CIFAR-100-Cなどの堅牢性ベンチマークでいくつかのベースラインを上回ることでCTの有効性を実証的に示します、およびVLCS。
Batch normalization (BN) is a ubiquitous technique for training deep neural networks that accelerates their convergence to reach higher accuracy. However, we demonstrate that BN comes with a fundamental drawback: it incentivizes the model to rely on low-variance features that are highly specific to the training (in-domain) data, hurting generalization performance on out-of-domain examples. In this work, we investigate this phenomenon by first showing that removing BN layers across a wide range of architectures leads to lower out-of-domain and corruption errors at the cost of higher in-domain errors. We then propose Counterbalancing Teacher (CT), a method which leverages a frozen copy of the same model without BN as a teacher to enforce the student network's learning of robust representations by substantially adapting its weights through a consistency loss function. This regularization signal helps CT perform well in unforeseen data shifts, even without information from the target domain as in prior works. We theoretically show in an overparameterized linear regression setting why normalization leads to a model's reliance on such in-domain features, and empirically demonstrate the efficacy of CT by outperforming several baselines on robustness benchmarks such as CIFAR-10-C, CIFAR-100-C, and VLCS.