FDA: Feature Disruptive Attack
  ディープニューラルネットワーク(DNN)はさまざまなコンピュータービジョンタスクで優れたパフォーマンスを示しますが、いくつかの作品は、敵対的なサンプル、つまりネットワークの予測を操作するために設計された知覚できないノイズを含む画像サンプルに対する脆弱性を示しています。敵対的なサンプル生成方法は、単純なものから複雑な最適化手法までさまざまです。これらの方法の大半は、ネットワークのpre-softmaxまたはsoftmax出力に関連付けられた最適化目標を通じて敵を生成します。この作業では、(i)そのような攻撃の欠点を示し、(ii)2つの新しい評価指標を提案します:旧ラベル新ランク(OLNR)と新ラベル旧ランク(NLOR)は、 (iii)既存の攻撃の欠点に対処するために、新しい敵対攻撃FDA:Feature Disruptive Attackを提案します。 FDAは、ネットワークの各レイヤーの機能を混乱させ、深い機能を非常に破損させる画像の摂動を生成することで機能します。これにより、FDAの敵はディープネットワークのパフォーマンスを大幅に低下させることができます。 FDAは、さまざまな防御手段が存在する場合でも、他の最先端の画像分類方法よりもFDAが強力な敵を生成することを実験的に検証します。さらに重要なことは、タスク固有のネットワークや方法論にアクセスしなくても、FDAが機能表現ベースのタスクを混乱させることを示しています。利用可能なコード:
Though Deep Neural Networks (DNN) show excellent performance across various computer vision tasks, several works show their vulnerability to adversarial samples, i.e., image samples with imperceptible noise engineered to manipulate the network's prediction. Adversarial sample generation methods range from simple to complex optimization techniques. Majority of these methods generate adversaries through optimization objectives that are tied to the pre-softmax or softmax output of the network. In this work we, (i) show the drawbacks of such attacks, (ii) propose two new evaluation metrics: Old Label New Rank (OLNR) and New Label Old Rank (NLOR) in order to quantify the extent of damage made by an attack, and (iii) propose a new adversarial attack FDA: Feature Disruptive Attack, to address the drawbacks of existing attacks. FDA works by generating image perturbation that disrupt features at each layer of the network and causes deep-features to be highly corrupt. This allows FDA adversaries to severely reduce the performance of deep networks. We experimentally validate that FDA generates stronger adversaries than other state-of-the-art methods for image classification, even in the presence of various defense measures. More importantly, we show that FDA disrupts feature-representation based tasks even without access to the task-specific network or methodology. Code available at:
updated: Tue Sep 10 2019 10:09:38 GMT+0000 (UTC)
published: Tue Sep 10 2019 10:09:38 GMT+0000 (UTC)
