arXiv reaDer
敵対的分布ロバスト性と自然分布ロバストネスの間の明示的なトレードオフ
Explicit Tradeoffs between Adversarial and Natural Distributional Robustness
いくつかの既存の研究では、ディープ ニューラル ネットワークの敵対的または自然な分布ロバスト性を別々に研究しています。ただし、実際には、モデルは信頼性を確保するために両方のタイプの堅牢性を享受する必要があります。この作業では、このギャップを埋め、実際、敵対的および自然な分布の堅牢性の間に明示的なトレードオフが存在することを示します。最初に、コアとスプリアスの特徴の互いに素なセットを持つガウス データの単純な線形回帰設定を検討します。この設定では、理論的および経験的分析を通じて、(i) ℓ_1 および ℓ_2 ノルムを使用した敵対的トレーニングにより、スプリアス機能へのモデルの依存が増加することを示します。 (ii) ℓ_∞ 敵対的トレーニングの場合、疑似特徴のスケールがコア特徴のスケールよりも大きい場合にのみ、疑似依存が発生します。 (iii)敵対的トレーニングは、特に新しいテストドメインで偽の相関が変更された場合に、分布の堅牢性を低下させるという意図しない結果をもたらす可能性があります。次に、5 つのベンチマーク データセット (ObjectNet、RIVAL10、Salient ImageNet-1M、ImageNet-9、Waterbirds) で評価された 20 の敵対的にトレーニングされたモデルのテスト スイートを使用して、敵対的にトレーニングされた分類器が標準よりも背景に依存しているという広範な経験的証拠を提示します。訓練を受けた対応者であり、理論的結果を検証します。また、トレーニング データの疑似相関 (テスト ドメインに保存されている場合) が敵対的ロバスト性を改善できることも示し、敵対的脆弱性が疑似相関に根ざしているという以前の主張が不完全であることを明らかにしました。
Several existing works study either adversarial or natural distributional robustness of deep neural networks separately. In practice, however, models need to enjoy both types of robustness to ensure reliability. In this work, we bridge this gap and show that in fact, explicit tradeoffs exist between adversarial and natural distributional robustness. We first consider a simple linear regression setting on Gaussian data with disjoint sets of core and spurious features. In this setting, through theoretical and empirical analysis, we show that (i) adversarial training with ℓ_1 and ℓ_2 norms increases the model reliance on spurious features; (ii) For ℓ_∞ adversarial training, spurious reliance only occurs when the scale of the spurious features is larger than that of the core features; (iii) adversarial training can have an unintended consequence in reducing distributional robustness, specifically when spurious correlations are changed in the new test domain. Next, we present extensive empirical evidence, using a test suite of twenty adversarially trained models evaluated on five benchmark datasets (ObjectNet, RIVAL10, Salient ImageNet-1M, ImageNet-9, Waterbirds), that adversarially trained classifiers rely on backgrounds more than their standardly trained counterparts, validating our theoretical results. We also show that spurious correlations in training data (when preserved in the test domain) can improve adversarial robustness, revealing that previous claims that adversarial vulnerability is rooted in spurious correlations are incomplete.
updated: Thu Sep 15 2022 19:58:01 GMT+0000 (UTC)
published: Thu Sep 15 2022 19:58:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト