標準的な畳み込みニューラルネットワークの場合、入力ピクセルを最適化して特定のターゲットクラスのスコアを最大化すると、通常、元の画像の粒子が粗いバージョンになります。しかし、Santurkarら。 (2019)敵対的に訓練されたニューラルネットワークの場合、この最適化により、ターゲットクラスに非常に似た画像が生成されることが実証されました。本論文では、これらの「知覚的に整列した勾配」が、敵対的にロバストな分類器を構築する代替手段であるランダム化スムージングの下でも発生することを示します。我々の発見は、知覚的に整列した勾配がロバストな分類器の一般的な特性であるかもしれないという仮説を支持します。私たちの結果が、知覚的に調整された勾配と敵対的堅牢性の間のこのリンクを説明することを目的とした研究を刺激することを願っています。
For a standard convolutional neural network, optimizing over the input pixels to maximize the score of some target class will generally produce a grainy-looking version of the original image. However, Santurkar et al. (2019) demonstrated that for adversarially-trained neural networks, this optimization produces images that uncannily resemble the target class. In this paper, we show that these "perceptually-aligned gradients" also occur under randomized smoothing, an alternative means of constructing adversarially-robust classifiers. Our finding supports the hypothesis that perceptually-aligned gradients may be a general property of robust classifiers. We hope that our results will inspire research aimed at explaining this link between perceptually-aligned gradients and adversarial robustness.