arXiv reaDer
敵対的攻撃の帰属と相互作用の解釈
Interpreting Attributions and Interactions of Adversarial Attacks
このペーパーは、敵対的摂動が攻撃タスクにどのように寄与するかという観点から、敵対的攻撃を説明することを目的としています。シャープレイ値に基づいて、攻撃コストの減少に対するさまざまな画像領域の帰属を推定します。敵対的な摂動ピクセル間の相互作用を定義および定量化し、摂動マップ全体を比較的独立した摂動成分に分解します。摂動マップの分解は、敵対的に訓練されたDNNが、通常訓練されたDNNよりも前景に多くの摂動成分を持っていることを示しています。さらに、通常の訓練を受けたDNNと比較して、敵対的に訓練されたDNNは、主に真のカテゴリーのスコアを低下させるより多くのコンポーネントを持っています。上記の分析は、敵対的攻撃の理解に対する新しい洞察を提供します。
This paper aims to explain adversarial attacks in terms of how adversarial perturbations contribute to the attacking task. We estimate attributions of different image regions to the decrease of the attacking cost based on the Shapley value. We define and quantify interactions among adversarial perturbation pixels, and decompose the entire perturbation map into relatively independent perturbation components. The decomposition of the perturbation map shows that adversarially-trained DNNs have more perturbation components in the foreground than normally-trained DNNs. Moreover, compared to the normally-trained DNN, the adversarially-trained DNN have more components which mainly decrease the score of the true category. Above analyses provide new insights into the understanding of adversarial attacks.
updated: Mon Aug 16 2021 04:59:39 GMT+0000 (UTC)
published: Mon Aug 16 2021 04:59:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト