arXiv reaDer
Attack-Invariant 機能による敵対的な例からの防御に向けて
Towards Defending against Adversarial Examples via Attack-Invariant Features
ディープ ニューラル ネットワーク (DNN) は、敵対的なノイズに対して脆弱です。それらの敵対的な堅牢性は、敵対的な例を利用することで改善できます。ただし、継続的に進化する攻撃を考えると、既知のタイプの敵対的な例でトレーニングされたモデルは、一般的に、未知のタイプの敵対的な例にうまく一般化できません。この問題を解決するために、この論文では、意味分類情報を維持する攻撃全体で一般化可能な不変特徴を学習することにより、敵対的ノイズを除去することを提案します。具体的には、敵対的ノイズから不変特徴を解くための敵対的特徴学習メカニズムを導入します。正規化用語は、攻撃の不変機能のエンコードされた領域で提案されており、攻撃の目に見えるタイプと見えないタイプとの間のバイアスの問題に対処しています。経験的評価は、特に目に見えない種類の攻撃や適応型攻撃に対して、私たちの方法が以前の最先端のアプローチと比較してより優れた保護を提供できることを示しています。
Deep neural networks (DNNs) are vulnerable to adversarial noise. Their adversarial robustness can be improved by exploiting adversarial examples. However, given the continuously evolving attacks, models trained on seen types of adversarial examples generally cannot generalize well to unseen types of adversarial examples. To solve this problem, in this paper, we propose to remove adversarial noise by learning generalizable invariant features across attacks which maintain semantic classification information. Specifically, we introduce an adversarial feature learning mechanism to disentangle invariant features from adversarial noise. A normalization term has been proposed in the encoded space of the attack-invariant features to address the bias issue between the seen and unseen types of attacks. Empirical evaluations demonstrate that our method could provide better protection in comparison to previous state-of-the-art approaches, especially against unseen types of attacks and adaptive attacks.
updated: Wed Jun 09 2021 12:49:54 GMT+0000 (UTC)
published: Wed Jun 09 2021 12:49:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト