arXiv reaDer
敵対的な標的型攻撃に対するパッチワイズ++摂動
Patch-wise++ Perturbation for Adversarial Targeted Attacks
ディープニューラルネットワーク(DNN)に対する敵対的攻撃については大きな進歩が見られましたが、特に標的型攻撃の場合、その転送可能性は依然として不十分です。長い間見過ごされてきた背後にある2つの問題があります。1)ϵ制約に準拠するためのステップサイズϵ / TのT反復の従来の設定。この場合、ほとんどのピクセルは、ϵよりはるかに小さい非常に小さなノイズを追加できます。 2)通常はピクセル単位のノイズを操作します。ただし、DNNによって抽出されたピクセルの特徴は、その周囲の領域の影響を受け、さまざまなDNNは、通常、認識においてさまざまな識別領域に焦点を合わせます。これらの問題に取り組むために、我々は、高い転送可能性を備えた敵対的な例を作成することを目的としたパッチワイズ反復法(PIM)を提案します。具体的には、各反復のステップサイズに増幅係数を導入し、ϵ制約をオーバーフローする1ピクセルの全体的な勾配が、プロジェクトカーネルによってその周囲の領域に適切に割り当てられます。しかし、標的型攻撃は、敵対的な例を特定のクラスの領域に押し込むことを目的としており、増幅率が不十分になる可能性があります。したがって、温度を導入し、パッチワイズ++反復法(PIM ++)を提案して、ホワイトボックス攻撃のパフォーマンスを大幅に犠牲にすることなく転送可能性をさらに向上させます。私たちの方法は、一般的に、勾配ベースの攻撃方法に統合できます。現在の最先端の攻撃方法と比較して、防御モデルで35.9%、通常の訓練を受けたモデルで平均32.7%成功率が大幅に向上しています。
Although great progress has been made on adversarial attacks for deep neural networks (DNNs), their transferability is still unsatisfactory, especially for targeted attacks. There are two problems behind that have been long overlooked: 1) the conventional setting of T iterations with the step size of ϵ/T to comply with the ϵ-constraint. In this case, most of the pixels are allowed to add very small noise, much less than ϵ; and 2) usually manipulating pixel-wise noise. However, features of a pixel extracted by DNNs are influenced by its surrounding regions, and different DNNs generally focus on different discriminative regions in recognition. To tackle these issues, we propose a patch-wise iterative method (PIM) aimed at crafting adversarial examples with high transferability. Specifically, we introduce an amplification factor to the step size in each iteration, and one pixel's overall gradient overflowing the ϵ-constraint is properly assigned to its surrounding regions by a project kernel. But targeted attacks aim to push the adversarial examples into the territory of a specific class, and the amplification factor may lead to underfitting. Thus, we introduce the temperature and propose a patch-wise++ iterative method (PIM++) to further improve transferability without significantly sacrificing the performance of the white-box attack. Our method can be generally integrated to any gradient-based attack method. Compared with the current state-of-the-art attack methods, we significantly improve the success rate by 35.9% for defense models and 32.7% for normally trained models on average.
updated: Thu Jan 07 2021 07:34:21 GMT+0000 (UTC)
published: Thu Dec 31 2020 08:40:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト