Propagated Perturbation of Adversarial Attack for well-known CNNs: Empirical Study and its Explanation
  ディープニューラルネットワークに基づく分類器は、誤分類を強制する敵対的な攻撃によって構築された入力の摂動に対して脆弱であることが知られています。ほとんどの研究は、勾配ベースの攻撃方法による脆弱なノイズの作成方法や、敵の攻撃からモデルを防御する方法に焦点を当てています。ノイズ除去モデルの使用は、分類性能は大幅に向上していませんでしたが、敵対的なノイズを減らすためのよく知られたソリューションの1つです。この研究では、説明可能なAI(XAI)の観点として、敵対攻撃の伝播を分析することを目指しています。具体的には、CNNアーキテクチャによる敵対的摂動の傾向を調べます。伝播された摂動を分析するために、ノイズ除去された元のイメージと非ノイズされた元のイメージの特徴マップ間の各CNNレイヤーで正規化されたユークリッド距離とコサイン距離を測定しました。 5つの有名なCNNベースの分類子と3つの勾配ベースの敵対攻撃を使用しました。実験結果から、ほとんどの場合、ユークリッド距離は最終的に完全に接続されたレイヤーで爆発的に増加し、コサイン距離は変動し、最後のレイヤーで消えることがわかりました。これは、ノイズ除去の使用がノイズの量を減らすことができることを意味します。ただし、精度の低下を防ぐことはできませんでした。
Deep Neural Network based classifiers are known to be vulnerable to perturbations of inputs constructed by an adversarial attack to force misclassification. Most studies have focused on how to make vulnerable noise by gradient based attack methods or to defense model from adversarial attack. The use of the denoiser model is one of a well-known solution to reduce the adversarial noise although classification performance had not significantly improved. In this study, we aim to analyze the propagation of adversarial attack as an explainable AI(XAI) point of view. Specifically, we examine the trend of adversarial perturbations through the CNN architectures. To analyze the propagated perturbation, we measured normalized Euclidean Distance and cosine distance in each CNN layer between the feature map of the perturbed image passed through denoiser and the non-perturbed original image. We used five well-known CNN based classifiers and three gradient-based adversarial attacks. From the experimental results, we observed that in most cases, Euclidean Distance explosively increases in the final fully connected layer while cosine distance fluctuated and disappeared at the last layer. This means that the use of denoiser can decrease the amount of noise. However, it failed to defense accuracy degradation.
updated: Mon Sep 23 2019 07:18:24 GMT+0000 (UTC)
published: Thu Sep 19 2019 23:51:07 GMT+0000 (UTC)
