高速敵対訓練(FAT)は、標準敵対訓練(SAT)の効率を効果的に向上させます。ただし、最初のFATは壊滅的な過剰適合に遭遇します。つまり、敵対的な攻撃に対する堅牢な精度が突然劇的に低下します。いくつかのFATバリアントは、過剰適合を防ぐための努力を惜しみませんが、多くの計算コストを犠牲にします。この論文では、SATとFATのトレーニングプロセスの違いを調査し、FATの敵対的な例(AE)の攻撃成功率がトレーニング後期に徐々に悪化し、過剰適合につながることを観察します。 AEは、ゼロまたはランダムな初期化を使用した高速勾配符号法(FGSM)によって生成されます。観察に基づいて、いくつかの初期化戦略を調査した後の過剰適合を回避し、トレーニングプロセス全体でAEの品質を向上させるために、事前にガイドされたFGSM初期化方法を提案します。初期化は、追加の計算コストなしで、過去に生成されたAEを活用することによって形成されます。さらに、提案された初期化方法の理論的分析を提供します。また、事前にガイドされた初期化に基づいた、シンプルでありながら効果的な正則化を提案します。つまり、現在生成されている摂動は、事前にガイドされた初期化から大きく逸脱してはなりません。正則化は、モデルの学習を導くために、過去と現在の両方の敵対的摂動を採用します。 4つのデータセットの評価は、提案された方法が壊滅的な過剰適合を防ぎ、最先端のFAT方法よりも優れていることを示しています。コードはhttps://github.com/jiaxiaojunQAQ/FGSM-PGIでリリースされています。
Fast adversarial training (FAT) effectively improves the efficiency of standard adversarial training (SAT). However, initial FAT encounters catastrophic overfitting, i.e.,the robust accuracy against adversarial attacks suddenly and dramatically decreases. Though several FAT variants spare no effort to prevent overfitting, they sacrifice much calculation cost. In this paper, we explore the difference between the training processes of SAT and FAT and observe that the attack success rate of adversarial examples (AEs) of FAT gets worse gradually in the late training stage, resulting in overfitting. The AEs are generated by the fast gradient sign method (FGSM) with a zero or random initialization. Based on the observation, we propose a prior-guided FGSM initialization method to avoid overfitting after investigating several initialization strategies, improving the quality of the AEs during the whole training process. The initialization is formed by leveraging historically generated AEs without additional calculation cost. We further provide a theoretical analysis for the proposed initialization method. We also propose a simple yet effective regularizer based on the prior-guided initialization,i.e., the currently generated perturbation should not deviate too much from the prior-guided initialization. The regularizer adopts both historical and current adversarial perturbations to guide the model learning. Evaluations on four datasets demonstrate that the proposed method can prevent catastrophic overfitting and outperform state-of-the-art FAT methods. The code is released at https://github.com/jiaxiaojunQAQ/FGSM-PGI.