arXiv reaDer
普遍的な敵対的摂動を緩和するためのヤコビ正則化
Jacobian Regularization for Mitigating Universal Adversarial Perturbations
Universal Adversarial Perturbations(UAP)は、大量のデータセットでニューラルネットワークをだますことができる入力摂動です。これらは、ニューラルネットワークに対する現実的で実用的かつ低コストの攻撃を促進するため、重大な脅威となる攻撃のクラスです。この作業では、データに依存するヤコビアンの規範に基づいて、UAPの有効性の上限を導き出します。ヤコビアン正則化により、クリーンなパフォーマンスを維持しながら、UAPに対するモデルの堅牢性が最大4倍向上することを経験的に検証します。私たちの理論的分析により、入力のペア間で共有される敵対的摂動の強さのメトリックを定式化することもできます。このメトリックをベンチマークデータセットに適用し、実際に観察された堅牢性と高い相関関係があることを示します。これは、クリーンな精度を犠牲にすることなく、現実的で実用的なユニバーサル攻撃を確実に軽減できることを示唆しており、機械学習システムの堅牢性が期待できます。
Universal Adversarial Perturbations (UAPs) are input perturbations that can fool a neural network on large sets of data. They are a class of attacks that represents a significant threat as they facilitate realistic, practical, and low-cost attacks on neural networks. In this work, we derive upper bounds for the effectiveness of UAPs based on norms of data-dependent Jacobians. We empirically verify that Jacobian regularization greatly increases model robustness to UAPs by up to four times whilst maintaining clean performance. Our theoretical analysis also allows us to formulate a metric for the strength of shared adversarial perturbations between pairs of inputs. We apply this metric to benchmark datasets and show that it is highly correlated with the actual observed robustness. This suggests that realistic and practical universal attacks can be reliably mitigated without sacrificing clean accuracy, which shows promise for the robustness of machine learning systems.
updated: Mon Sep 13 2021 00:01:57 GMT+0000 (UTC)
published: Wed Apr 21 2021 11:00:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト