arXiv reaDer
攻撃失敗の指標:敵対的な例の最適化のデバッグと改善
Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples
敵対的な例に対する機械学習モデルの堅牢性を評価することは、困難な問題です。多くの防御は、勾配ベースの攻撃を失敗させることによって誤った安心感を提供することが示されており、より厳密な評価の下で破られています。現在の敵対的な堅牢性評価を改善するためのガイドラインとベストプラクティスが提案されていますが、自動テストおよびデバッグツールがないため、これらの推奨事項を体系的に適用することは困難です。この作業では、(i)勾配ベースの攻撃の最適化における一般的な失敗を明らかにする一連の定量的指標を定義し、(ii)体系的な評価プロトコル内で特定の緩和戦略を提案することにより、これらの制限を克服します。私たちの広範な実験分析は、提案された失敗の指標を使用して、現在の敵対的ロバスト性評価を視覚化、デバッグ、および改善できることを示し、現在の敵対的ロバスト性評価の自動化および体系化に向けた最初の具体的なステップを提供します。オープンソースコードは、https://github.com/pralab/IndicatorsOfAttackFailureで入手できます。
Evaluating robustness of machine-learning models to adversarial examples is a challenging problem. Many defenses have been shown to provide a false sense of security by causing gradient-based attacks to fail, and they have been broken under more rigorous evaluations. Although guidelines and best practices have been suggested to improve current adversarial robustness evaluations, the lack of automatic testing and debugging tools makes it difficult to apply these recommendations in a systematic manner. In this work, we overcome these limitations by (i) defining a set of quantitative indicators which unveil common failures in the optimization of gradient-based attacks, and (ii) proposing specific mitigation strategies within a systematic evaluation protocol. Our extensive experimental analysis shows that the proposed indicators of failure can be used to visualize, debug and improve current adversarial robustness evaluations, providing a first concrete step towards automatizing and systematizing current adversarial robustness evaluations. Our open-source code is available at: https://github.com/pralab/IndicatorsOfAttackFailure.
updated: Fri Jun 18 2021 06:57:58 GMT+0000 (UTC)
published: Fri Jun 18 2021 06:57:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト