ニューラルネットワークは、敵対的な攻撃に対して脆弱です。入力に巧妙に作成された知覚できない摂動を追加すると、出力が変更される可能性があります。敵対的訓練は、そのような攻撃に対して堅牢なモデルを訓練する上で最も効果的なアプローチの1つです。ただし、反復ごとにトレーニングデータ全体の敵対的な例を作成する必要があり、その有効性を妨げるため、ニューラルネットワークのバニラトレーニングよりもはるかに低速です。最近、堅牢なモデルを効率的に取得できるFast Adversarial Training(FAT)が提案されました。ただし、その成功の背後にある理由は完全には理解されておらず、さらに重要なことに、トレーニング中にFGSMを使用するため、ℓ_∞境界の攻撃に対して堅牢なモデルしかトレーニングできません。このホワイトペーパーでは、コアセット選択の理論を活用して、トレーニングデータの小さなサブセットを選択することで、堅牢なトレーニングの時間計算量を削減するための一般的でより原理的なアプローチがどのように提供されるかを示します。既存の方法とは異なり、私たちのアプローチは、TRADES、ℓ_p-PGD、知覚的敵対的トレーニング(PAT)など、さまざまなトレーニング目標に適合させることができます。私たちの実験結果は、私たちのアプローチが敵対的な訓練を2〜3倍高速化する一方で、クリーンで堅牢な精度がわずかに低下することを示しています。
Neural networks are vulnerable to adversarial attacks: adding well-crafted, imperceptible perturbations to their input can modify their output. Adversarial training is one of the most effective approaches in training robust models against such attacks. However, it is much slower than vanilla training of neural networks since it needs to construct adversarial examples for the entire training data at every iteration, hampering its effectiveness. Recently, Fast Adversarial Training (FAT) was proposed that can obtain robust models efficiently. However, the reasons behind its success are not fully understood, and more importantly, it can only train robust models for ℓ_∞-bounded attacks as it uses FGSM during training. In this paper, by leveraging the theory of coreset selection, we show how selecting a small subset of training data provides a general, more principled approach toward reducing the time complexity of robust training. Unlike existing methods, our approach can be adapted to a wide variety of training objectives, including TRADES, ℓ_p-PGD, and Perceptual Adversarial Training (PAT). Our experimental results indicate that our approach speeds up adversarial training by 2-3 times while experiencing a slight reduction in the clean and robust accuracy.