敵対的な例を作成するための新しい方法を提案します。ピクセルを摂動させる代わりに、入力画像のエンコーダーデコーダー表現を使用し、デコーダーの中間層を摂動させます。これにより、生成モデルによって提供される高レベルの機能が変更されます。したがって、私たちの摂動は、より長いくちばしや緑の色合いなどの意味的な意味を持っています。誤分類制約の下で敵対画像と初期画像の間のワッサースタイン距離を最小化することにより、このタスクを最適化問題として定式化します。単純な不正確な投影による投影勾配法を採用しています。投影により、すべての反復が実行可能であり、私たちの方法は常に敵対的な画像を生成します。ターゲット設定と非ターゲット設定の両方で、MNISTおよびImageNetデータセットに対して数値実験を実行します。敵対的な画像は、ピクセルベースの攻撃よりもステガノグラフィ防御技術に対してはるかに脆弱ではないことを示しています。さらに、私たちの方法がエッジなどの主要な機能を変更し、敵対的な訓練に基づく防御技術が私たちの攻撃に対して脆弱であることを示します。
We propose a novel method for creating adversarial examples. Instead of perturbing pixels, we use an encoder-decoder representation of the input image and perturb intermediate layers in the decoder. This changes the high-level features provided by the generative model. Therefore, our perturbation possesses semantic meaning, such as a longer beak or green tints. We formulate this task as an optimization problem by minimizing the Wasserstein distance between the adversarial and initial images under a misclassification constraint. We employ the projected gradient method with a simple inexact projection. Due to the projection, all iterations are feasible, and our method always generates adversarial images. We perform numerical experiments on the MNIST and ImageNet datasets in both targeted and untargeted settings. We demonstrate that our adversarial images are much less vulnerable to steganographic defence techniques than pixel-based attacks. Moreover, we show that our method modifies key features such as edges and that defence techniques based on adversarial training are vulnerable to our attacks.