arXiv reaDer
ターゲットを絞った転送可能な敵対的例を生成するために画像の局所性を組み込む
Incorporating Locality of Images to Generate Targeted Transferable Adversarial Examples
敵対的な例の転送可能性を利用すると、非標的型攻撃に対してかなり高い攻撃成功率を達成できるにもかかわらず、ソース画像から標的クラスへの勾配の方向は通常、DNN ごとに異なるため、標的型攻撃ではうまく機能しません。ターゲット攻撃の転送可能性を高めるために、最近の研究では、生成された敵対的な例の機能を、補助ネットワークまたは生成的な敵対的ネットワークから学習したターゲット クラスの機能分布に合わせる努力が行われています。ただし、これらの作業は、トレーニング データセットが利用可能であり、ネットワークのトレーニングに多くの時間を必要とすることを前提としているため、実際のシナリオに適用することは困難です。この論文では、普遍性の観点からターゲットを絞った転送可能性を備えた敵対的な例を再検討し、非常に普遍的な敵対的摂動がより転送可能になる傾向があることを発見しました。この観察に基づいて、ターゲットを絞った転送可能性を向上させるために、画像の局所性 (LI) 攻撃を提案します。具体的には、分類損失のみを使用する代わりに、LI は、敵対的摂動による元の画像とランダムにトリミングされた画像からの中間特徴間の特徴類似性損失を導入します。 .画像の局所性を摂動の最適化に組み込むことにより、LI 攻撃は、対象を絞った摂動が、局所的な画像パッチであっても、多様な入力パターンに対して普遍的であるべきであることを強調します。広範な実験により、LI が転送ベースの標的型攻撃に対して高い成功率を達成できることが実証されています。 ImageNet 互換のデータセットを攻撃すると、LI は既存の最先端の方法と比較して 12% の改善をもたらします。
Despite that leveraging the transferability of adversarial examples can attain a fairly high attack success rate for non-targeted attacks, it does not work well in targeted attacks since the gradient directions from a source image to a targeted class are usually different in different DNNs. To increase the transferability of target attacks, recent studies make efforts in aligning the feature of the generated adversarial example with the feature distributions of the targeted class learned from an auxiliary network or a generative adversarial network. However, these works assume that the training dataset is available and require a lot of time to train networks, which makes it hard to apply to real-world scenarios. In this paper, we revisit adversarial examples with targeted transferability from the perspective of universality and find that highly universal adversarial perturbations tend to be more transferable. Based on this observation, we propose the Locality of Images (LI) attack to improve targeted transferability. Specifically, instead of using the classification loss only, LI introduces a feature similarity loss between intermediate features from adversarial perturbed original images and randomly cropped images, which makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. Through incorporating locality of images into optimizing perturbations, the LI attack emphasizes that targeted perturbations should be universal to diverse input patterns, even local image patches. Extensive experiments demonstrate that LI can achieve high success rates for transfer-based targeted attacks. On attacking the ImageNet-compatible dataset, LI yields an improvement of 12% compared with existing state-of-the-art methods.
updated: Thu Sep 08 2022 11:21:26 GMT+0000 (UTC)
published: Thu Sep 08 2022 11:21:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト