NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks
 強力な敵対攻撃手法は、堅牢なディープニューラルネットワーク(DNN)の構築方法を理解し、防御手法を徹底的にテストするために不可欠です。本論文では、バニラDNNと最近開発されたさまざまな防衛技術によって生成されたDNNの両方を打ち負かすことができるブラックボックス敵対攻撃アルゴリズムを提案します。ターゲットのDNNへの良性入力の「最適な」敵対例を検索する代わりに、アルゴリズムは入力を中心とした小さな領域で確率密度分布を見つけます。そのため、この分布から引き出されたサンプルはDNNの内部層または重みにアクセスする必要性。単一のアルゴリズムでさまざまなニューラルネットワークを正常に攻撃できるため、私たちのアプローチは普遍的です。また、強いです。 2つのバニラDNNと13の防御されたDNNに対するテストによると、ほとんどのテストケースで最先端のブラックボックスまたはホワイトボックス攻撃方法よりも優れています。さらに、我々の結果は、敵対的な訓練が依然として最高の防御テクニックの1つであり、敵対的な例は防御されたDNNを越えてバニラDNNを越えて移転できないことを明らかにしています。
Powerful adversarial attack methods are vital for understanding how to construct robust deep neural networks (DNNs) and for thoroughly testing defense techniques. In this paper, we propose a black-box adversarial attack algorithm that can defeat both vanilla DNNs and those generated by various defense techniques developed recently. Instead of searching for an "optimal" adversarial example for a benign input to a targeted DNN, our algorithm finds a probability density distribution over a small region centered around the input, such that a sample drawn from this distribution is likely an adversarial example, without the need of accessing the DNN's internal layers or weights. Our approach is universal as it can successfully attack different neural networks by a single algorithm. It is also strong; according to the testing against 2 vanilla DNNs and 13 defended ones, it outperforms state-of-the-art black-box or white-box attack methods for most test cases. Additionally, our results reveal that adversarial training remains one of the best defense techniques, and the adversarial examples are not as transferable across defended DNNs as them across vanilla DNNs.
updated: Mon Dec 09 2019 19:18:49 GMT+0000 (UTC)
published: Wed May 01 2019 18:20:09 GMT+0000 (UTC)
