実際には、ディープニューラルネットワークは、敵対的な例や破損など、さまざまなタイプのノイズに対して脆弱であることがわかっています。したがって、ディープモデルの敵対的ロバスト性を向上させるために、さまざまな敵対的防御方法が開発されてきました。ただし、敵対的な例が混在するデータをトレーニングするだけでは、これらのモデルのほとんどは、一般化されたタイプのノイズに対する防御に失敗します。隠れ層がロバストなモデルを維持する上で非常に重要な役割を果たすという事実に動機付けられて、この論文は、層ごとに隠れ層にノイズを注入する、Adversarial Noise Propagation(ANP)と呼ばれるシンプルで強力なトレーニングアルゴリズムを提案します。 ANPは、後方前方トレーニングスタイルの性質を活用することで効率的に実装できます。徹底的な調査を通じて、異なる隠れ層がモデルの堅牢性とクリーンな精度に異なる貢献をする一方で、浅い層は深い層よりも比較的重要であることがわかりました。さらに、私たちのフレームワークは、他の敵対的なトレーニング方法と簡単に組み合わせることができ、隠れ層の可能性を活用することでモデルの堅牢性をさらに向上させることができます。 MNIST、CIFAR-10、CIFAR-10-C、CIFAR-10-P、およびImageNetでの広範な実験は、ANPが敵対的モデルと破損モデルの両方に対して深いモデルの強力な堅牢性を可能にし、さまざまな敵対的防御方法を大幅に上回っていることを示しています。
In practice, deep neural networks have been found to be vulnerable to various types of noise, such as adversarial examples and corruption. Various adversarial defense methods have accordingly been developed to improve adversarial robustness for deep models. However, simply training on data mixed with adversarial examples, most of these models still fail to defend against the generalized types of noise. Motivated by the fact that hidden layers play a highly important role in maintaining a robust model, this paper proposes a simple yet powerful training algorithm, named Adversarial Noise Propagation (ANP), which injects noise into the hidden layers in a layer-wise manner. ANP can be implemented efficiently by exploiting the nature of the backward-forward training style. Through thorough investigations, we determine that different hidden layers make different contributions to model robustness and clean accuracy, while shallow layers are comparatively more critical than deep layers. Moreover, our framework can be easily combined with other adversarial training methods to further improve model robustness by exploiting the potential of hidden layers. Extensive experiments on MNIST, CIFAR-10, CIFAR-10-C, CIFAR-10-P, and ImageNet demonstrate that ANP enables the strong robustness for deep models against both adversarial and corrupted ones, and also significantly outperforms various adversarial defense methods.