敵対的訓練は、数十の研究のトピックであり、敵対的攻撃から防御するための主要な方法です。それでも、(a)敵対的にロバストなImageNet分類器(R分類器)がどのように配布外の例に一般化されるかは、ほとんど不明なままです。 (b)それらの一般化機能がそれらの隠された表現にどのように関連しているか。このホワイトペーパーでは、AlexNet、GoogLeNet、およびResNet-50アーキテクチャ全体でこれら2つの質問に答えるために、徹底的で体系的な調査を実施します。標準のImageNet分類器には強いテクスチャバイアスがありますが、Rの分類器は形状に大きく依存していることがわかりました。驚くべきことに、敵対的な訓練は、ネットワークを「ロバスト化」する過程で、隠れたニューロンに3つの単純なバイアスを引き起こします。つまり、Rネットワークの各畳み込みニューロンは、(1)ピクセル単位でより滑らかなパターン、つまり高周波ノイズがネットワークを通過するのをブロックするメカニズムを検出するように変更されることがよくあります。 (2)より低レベルの機能、つまり(オブジェクトではなく)テクスチャと色。 (3)入力の種類が少ない。私たちの調査結果は、ネットワークをより敵対的に堅牢にした興味深いメカニズムを明らかにし、Rネットワークがはるかに大きな容量の恩恵を受け(Xie and Yuille、2020)、画像合成の前に強力な画像として機能できる理由(Santurkar etal。 、2019)。
Adversarial training has been the topic of dozens of studies and a leading method for defending against adversarial attacks. Yet, it remains largely unknown (a) how adversarially-robust ImageNet classifiers (R classifiers) generalize to out-of-distribution examples; and (b) how their generalization capability relates to their hidden representations. In this paper, we perform a thorough, systematic study to answer these two questions across AlexNet, GoogLeNet, and ResNet-50 architectures. We found that while standard ImageNet classifiers have a strong texture bias, their R counterparts rely heavily on shapes. Remarkably, adversarial training induces three simplicity biases into hidden neurons in the process of 'robustifying' the network. That is, each convolutional neuron in R networks often changes to detecting (1) pixel-wise smoother patterns i.e. a mechanism that blocks high-frequency noise from passing through the network; (2) more lower-level features i.e. textures and colors (instead of objects); and (3) fewer types of inputs. Our findings reveal the interesting mechanisms that made networks more adversarially robust and also explain some recent findings e.g. why R networks benefit from much larger capacity (Xie and Yuille, 2020) and can act as a strong image prior in image synthesis (Santurkar et al., 2019).