さまざまなコンピュータービジョンタスクでのディープニューラルネットワークの驚くべきパフォーマンスにもかかわらず、それらは敵対的な摂動の影響を受けやすいことが知られており、現実世界の安全が重要なアプリケーションへの展開が困難になります。この論文では、敵対的な脆弱性の主な原因は潜在的な特徴空間の歪みであると推測し、それらを効果的に抑制する方法を提供します。明示的に、潜在的な機能ごとに脆弱性を定義してから、トレーニング中に機能レベルの脆弱性を最小限に抑えることを目的とした、敵対的学習の新しい損失である脆弱性抑制(VS)損失を提案します。さらに、脆弱性の高い機能をプルーニングして敵対的なサンプルの脆弱性と損失の両方を減らすベイズフレームワークを提案します。私たちは、複数のベンチマークデータセットに対して脆弱性抑制を伴う敵対ニューラルプルーニング(ANP-VS)メソッドを検証します。これにより、最先端の敵対的な堅牢性が得られるだけでなく、クリーンなサンプルのパフォーマンスが向上します。ネットワーク全体で使用されるパラメータ。さらに定性分析では、機能レベルの脆弱性の抑制によって改善がもたらされることが示唆されています。
Despite the remarkable performance of deep neural networks on various computer vision tasks, they are known to be susceptible to adversarial perturbations, which makes it challenging to deploy them in real-world safety-critical applications. In this paper, we conjecture that the leading cause of adversarial vulnerability is the distortion in the latent feature space, and provide methods to suppress them effectively. Explicitly, we define vulnerability for each latent feature and then propose a new loss for adversarial learning, Vulnerability Suppression (VS) loss, that aims to minimize the feature-level vulnerability during training. We further propose a Bayesian framework to prune features with high vulnerability to reduce both vulnerability and loss on adversarial samples. We validate our Adversarial Neural Pruning with Vulnerability Suppression (ANP-VS) method on multiple benchmark datasets, on which it not only obtains state-of-the-art adversarial robustness but also improves the performance on clean examples, using only a fraction of the parameters used by the full network. Further qualitative analysis suggests that the improvements come from the suppression of feature-level vulnerability.