敵対的な例を生成するために多数の攻撃方法が提案されており、その中で反復法は強力な攻撃を見つける能力が実証されています。ただし、新しいデータポイントの敵対的摂動を計算するには、時間のかかる最適化問題を最初から解決する必要があります。より強力な攻撃を生成するには、通常、より多くの反復でデータポイントを更新する必要があります。この論文では、メタ敵対摂動(MAP)の存在を示します。これは、1ステップの勾配上昇更新のみで更新された後、自然画像が高い確率で誤分類されるより良い初期化であり、そのような計算のためのアルゴリズムを提案します。摂動。私たちは広範な実験を行い、経験的な結果は、最先端のディープニューラルネットワークがメタ摂動に対して脆弱であることを示しています。さらに、これらの摂動は画像にとらわれないだけでなく、モデルにもとらわれないことを示します。これは、単一の摂動が、見えないデータポイントとさまざまなニューラルネットワークアーキテクチャにわたって一般化されるためです。
A plethora of attack methods have been proposed to generate adversarial examples, among which the iterative methods have been demonstrated the ability to find a strong attack. However, the computation of an adversarial perturbation for a new data point requires solving a time-consuming optimization problem from scratch. To generate a stronger attack, it normally requires updating a data point with more iterations. In this paper, we show the existence of a meta adversarial perturbation (MAP), a better initialization that causes natural images to be misclassified with high probability after being updated through only a one-step gradient ascent update, and propose an algorithm for computing such perturbations. We conduct extensive experiments, and the empirical results demonstrate that state-of-the-art deep neural networks are vulnerable to meta perturbations. We further show that these perturbations are not only image-agnostic, but also model-agnostic, as a single perturbation generalizes well across unseen data points and different neural network architectures.