敵対者の訓練は、敵対攻撃に対するニューラルネットワークの堅牢性を改善するための最も成功した戦略です。防御メカニズムとしての成功にもかかわらず、敵対者の訓練は摂動のないテストセットにうまく一般化できません。この貧弱な一般化は、すべてのトレーニングサンプルの周囲に一様な摂動半径を持つ敵対的なトレーニングの結果であると仮定します。決定境界に近いサンプルは、小さな摂動バジェットの下で別のクラスにモーフィングすることができ、これらのサンプルの周囲に大きなマージンを強制すると、不十分に一般化される貧弱な決定境界が生成されます。この仮説に動機付けられて、我々はインスタンス適応敵対的トレーニングを提案します-すべてのトレーニングサンプルの周りにサンプル固有の摂動マージンを強制するテクニックです。このアプローチを使用すると、堅牢性がわずかに低下するだけで、摂動していないサンプルのテスト精度が向上することがわかります。 CIFAR-10、CIFAR-100、およびImagenetデータセットに関する広範な実験により、提案されたアプローチの有効性が実証されています。
Adversarial training is by far the most successful strategy for improving robustness of neural networks to adversarial attacks. Despite its success as a defense mechanism, adversarial training fails to generalize well to unperturbed test set. We hypothesize that this poor generalization is a consequence of adversarial training with uniform perturbation radius around every training sample. Samples close to decision boundary can be morphed into a different class under a small perturbation budget, and enforcing large margins around these samples produce poor decision boundaries that generalize poorly. Motivated by this hypothesis, we propose instance adaptive adversarial training -- a technique that enforces sample-specific perturbation margins around every training sample. We show that using our approach, test accuracy on unperturbed samples improve with a marginal drop in robustness. Extensive experiments on CIFAR-10, CIFAR-100 and Imagenet datasets demonstrate the effectiveness of our proposed approach.