AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Black-box Neural Networks
 最近の研究では、ターゲットモデルがホワイトボックス設定として知られる攻撃者に対して透過的である場合、ディープニューラルネットワーク(DNN)によって訓練された最先端の画像分類器の敵対的な例を簡単に生成できることが示されています。ただし、展開された機械学習サービスを攻撃する場合、ターゲットモデルの入出力対応のみを取得できます。これは、いわゆるブラックボックス攻撃設定です。既存のブラックボックス攻撃の主な欠点は、過剰なモデルクエリが必要なことです。これは、非効率的なクエリ設計により、モデルの堅牢性を誤って認識してしまう可能性があります。このギャップを埋めるために、クエリ効率の良いブラックボックス攻撃の一般的なフレームワークを提案します。 AutoEncoderベースのゼロ次最適化手法の略称であるフレームワークAutoZOOMには、効率的なブラックボックス攻撃に向けた2つの新しいビルディングブロックがあります:(i)クエリカウントと歪みのバランスをとるための適応ランダムグラデーション推定戦略、および(ii)ラベル付けされていないデータを使用してオフラインでトレーニングされるオートエンコーダ、または攻撃を加速するための双線形サイズ変更操作。実験結果は、AutoZOOMを最先端のブラックボックス攻撃(ZOO)に適用することにより、攻撃の成功率と結果の敵対的な例の視覚的品質を犠牲にすることなく、モデルクエリの大幅な削減を実現できることを示唆しています。特に、標準のZOO方法と比較すると、AutoZOOMはMNIST、CIFAR-10およびImageNetデータセットで少なくとも93%、成功した敵対的な例を見つける(または同じ歪みレベルに到達する)際の平均クエリ数を一貫して減少させることができます。敵対的な堅牢性に関する洞察。
Recent studies have shown that adversarial examples in state-of-the-art image classifiers trained by deep neural networks (DNN) can be easily generated when the target model is transparent to an attacker, known as the white-box setting. However, when attacking a deployed machine learning service, one can only acquire the input-output correspondences of the target model; this is the so-called black-box attack setting. The major drawback of existing black-box attacks is the need for excessive model queries, which may give a false sense of model robustness due to inefficient query designs. To bridge this gap, we propose a generic framework for query-efficient black-box attacks. Our framework, AutoZOOM, which is short for Autoencoder-based Zeroth Order Optimization Method, has two novel building blocks towards efficient black-box attacks: (i) an adaptive random gradient estimation strategy to balance query counts and distortion, and (ii) an autoencoder that is either trained offline with unlabeled data or a bilinear resizing operation for attack acceleration. Experimental results suggest that, by applying AutoZOOM to a state-of-the-art black-box attack (ZOO), a significant reduction in model queries can be achieved without sacrificing the attack success rate and the visual quality of the resulting adversarial examples. In particular, when compared to the standard ZOO method, AutoZOOM can consistently reduce the mean query counts in finding successful adversarial examples (or reaching the same distortion level) by at least 93% on MNIST, CIFAR-10 and ImageNet datasets, leading to novel insights on adversarial robustness.
updated: Fri Jan 31 2020 11:46:26 GMT+0000 (UTC)
published: Wed May 30 2018 01:39:34 GMT+0000 (UTC)
