arXiv reaDer
反転可能なニューラル ネットワークを介した知覚できない敵対的攻撃
Imperceptible Adversarial Attack via Invertible Neural Networks
補助勾配情報を利用して摂動を追加するか、良性の画像の既存の詳細を破棄することは、敵対的な例を生成するための2つの一般的なアプローチです。視覚的に知覚できないことは敵対的な例の望ましい特性ですが、従来の敵対的攻撃は依然として追跡可能な敵対的摂動を生成します。このホワイトペーパーでは、堅牢で知覚できない敵対的な例を生成するために、反転可能なニューラルネットワーク(AdvINN)メソッドを介した新しい敵対的攻撃を紹介します。具体的には、AdvINN は、Invertible Neural Networks の情報保存特性を最大限に活用し、対象クラスのクラス固有の意味情報を追加し、元のクラスの判別情報を削除することにより、敵対的な例を生成します。 CIFAR-10、CIFAR-100、および ImageNet-1K に関する広範な実験は、提案された AdvINN メソッドが最先端のメソッドよりも知覚できない敵対的イメージを生成できず、AdvINN が他のものと比較して高い信頼度でより堅牢な敵対的サンプルを生成することを示しています。敵対的攻撃。
Adding perturbations via utilizing auxiliary gradient information or discarding existing details of the benign images are two common approaches for generating adversarial examples. Though visual imperceptibility is the desired property of adversarial examples, conventional adversarial attacks still generate traceable adversarial perturbations. In this paper, we introduce a novel Adversarial Attack via Invertible Neural Networks (AdvINN) method to produce robust and imperceptible adversarial examples. Specifically, AdvINN fully takes advantage of the information preservation property of Invertible Neural Networks and thereby generates adversarial examples by simultaneously adding class-specific semantic information of the target class and dropping discriminant information of the original class. Extensive experiments on CIFAR-10, CIFAR-100, and ImageNet-1K demonstrate that the proposed AdvINN method can produce less imperceptible adversarial images than the state-of-the-art methods and AdvINN yields more robust adversarial examples with high confidence compared to other adversarial attacks.
updated: Tue Jan 17 2023 06:45:44 GMT+0000 (UTC)
published: Mon Nov 28 2022 03:29:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト