ディープニューラルネットワークは、敵の例に対して非常に脆弱であり、これらの最新モデルに深刻なセキュリティ問題を課しています。この問題を軽減するために、多くの防御方法が提案されています。ただし、それらの多くは、ターゲットモデルの変更または追加のトレーニングに依存しています。この作業では、各層の非摂動画像と摂動画像の表現を分析的に調査し、これらの表現のそれぞれに対する摂動の影響を示します。したがって、敵対者によって引き起こされる望ましいレイヤーの不正確な表示を減らすために、白色化変換に基づく方法が提案されています。この方法は、変更や追加のトレーニングを必要とせずに、任意のモデルの任意のレイヤーに適用できます。レイヤーの表現の完全なホワイトニングは簡単に微分できないという事実により、提案された方法はホワイトボックス攻撃に対して非常に堅牢です。さらに、いくつかの最先端のブラックボックス攻撃に対するこの方法の強さを実証します。
Deep neural networks are highly vulnerable to adversarial examples, which imposes severe security issues for these state-of-the-art models. Many defense methods have been proposed to mitigate this problem. However, a lot of them depend on modification or additional training of the target model. In this work, we analytically investigate each layer's representation of non-perturbed and perturbed images and show the effect of perturbations on each of these representations. Accordingly, a method based on whitening coloring transform is proposed in order to diminish the misrepresentation of any desirable layer caused by adversaries. Our method can be applied to any layer of any arbitrary model without the need of any modification or additional training. Due to the fact that the full whitening of the layer's representation is not easily differentiable, our proposed method is superbly robust against white-box attacks. Furthermore, we demonstrate the strength of our method against some state-of-the-art black-box attacks.