Sparse and Imperceivable Adversarial Attacks
  ニューラルネットワークは、さまざまな敵の攻撃に対して脆弱であることが証明されています。安全性の観点から、非常にまばらな敵対攻撃は特に危険です。一方、スパース攻撃のピクセル単位の摂動は通常大きく、したがって検出される可能性があります。元の画像までの$ l_0 $距離を最小化することを目的とした敵対的な例を作成するための新しいブラックボックス手法を提案します。広範な実験により、私たちの攻撃は最新技術に対してより優れているか、競合していることが示されています。さらに、成分ごとの摂動に追加の境界を統合できます。ピクセルの変動が大きい領域でのみ変更を許可し、軸に沿ったエッジに沿った変更を回避することにより、敵対者の例はほとんど認識できなくなります。さらに、Projected Gradient Descent攻撃を、コンポーネントごとの制約を統合する$ l_0 $ -normに適合させます。これにより、敵の訓練を行い、まばらで知覚できない敵の操作に対する分類器の堅牢性を強化できます。
Neural networks have been proven to be vulnerable to a variety of adversarial attacks. From a safety perspective, highly sparse adversarial attacks are particularly dangerous. On the other hand the pixelwise perturbations of sparse attacks are typically large and thus can be potentially detected. We propose a new black-box technique to craft adversarial examples aiming at minimizing $l_0$-distance to the original image. Extensive experiments show that our attack is better or competitive to the state of the art. Moreover, we can integrate additional bounds on the componentwise perturbation. Allowing pixels to change only in region of high variation and avoiding changes along axis-aligned edges makes our adversarial examples almost non-perceivable. Moreover, we adapt the Projected Gradient Descent attack to the $l_0$-norm integrating componentwise constraints. This allows us to do adversarial training to enhance the robustness of classifiers against sparse and imperceivable adversarial manipulations.
updated: Wed Sep 11 2019 13:28:44 GMT+0000 (UTC)
published: Wed Sep 11 2019 13:28:44 GMT+0000 (UTC)
