Understanding Frank-Wolfe Adversarial Training
ディープニューラルネットワークは、敵対的攻撃として知られる小さな摂動によって簡単にだまされます。 Adversarial Training(AT)は、ロバストな最適化問題をほぼ解決して最悪の場合の損失を最小限に抑える手法であり、このような攻撃に対する最も効果的な防御と広く見なされています。損失状況とℓ_∞FW攻撃の歪み(攻撃のℓ_2ノルム)との間の幾何学的な関係を明らかにする、FW最適化(FW-AT)を使用した敵対的トレーニングの理論的フレームワークを開発します。具体的には、FW攻撃の歪みが大きいことは、攻撃パスに沿った変動が小さいことと同等であることを示しています。次に、さまざまなディープニューラルネットワークアーキテクチャで、堅牢なモデルに対するℓ_∞攻撃がほぼ最大のℓ_2歪みを達成することが実験的に実証されています。この数学的透明性は、FWをより一般的なProjected Gradient Descent(PGD)最適化と区別します。理論的フレームワークの有用性を実証するために、トレーニング中に攻撃ステップの数を適応的に変更するために単純な歪み測定を使用する新しい敵対的トレーニングアルゴリズムであるFW-Adaptを開発します。 FW-Adaptは、さまざまなホワイトボックスおよびブラックボックス攻撃に対して、PGD-ATと比較して短いトレーニング時間で強力な堅牢性を提供します。
Deep neural networks are easily fooled by small perturbations known as adversarial attacks. Adversarial Training (AT) is a technique that approximately solves a robust optimization problem to minimize the worst-case loss and is widely regarded as the most effective defense against such attacks. We develop a theoretical framework for adversarial training with FW optimization (FW-AT) that reveals a geometric connection between the loss landscape and the distortion of ℓ_∞ FW attacks (the attack's ℓ_2 norm). Specifically, we show that high distortion of FW attacks is equivalent to low variation along the attack path. It is then experimentally demonstrated on various deep neural network architectures that ℓ_∞ attacks against robust models achieve near maximal ℓ_2 distortion. This mathematical transparency differentiates FW from the more popular Projected Gradient Descent (PGD) optimization. To demonstrate the utility of our theoretical framework we develop FW-Adapt, a novel adversarial training algorithm which uses simple distortion measure to adaptively change number of attack steps during training. FW-Adapt provides strong robustness at lower training times in comparison to PGD-AT for a variety of white-box and black-box attacks.
updated: Thu Jul 15 2021 15:54:03 GMT+0000 (UTC)
published: Tue Dec 22 2020 21:36:52 GMT+0000 (UTC)
