Bridging the Gap Between Adversarial Robustness and Optimization Bias
オプティマイザー、ニューラル ネットワーク アーキテクチャ、および正則化の選択が線形ニューラル ネットワークの敵対的堅牢性に大きく影響し、敵対的トレーニングを必要とせずに保証されることを示します。この目的のために、最大限に堅牢な分類子と最小ノルム ソリューションをリンクする既知の結果を再検討し、オプティマイザーの暗黙的なバイアスに関する最近の結果と組み合わせます。まず、特定の条件下では、最適化の暗黙的バイアスを使用して過剰パラメータ化されたモデルをトレーニングするだけで、完全な標準精度とある程度のロバスト性の両方を達成できることを示します。その体制では、オプティマイザーのタイプとモデルが堅牢である攻撃との間に直接的な関係があります。私たちの知る限り、この研究は、符号勾配降下法や近接法などの最適化手法が敵対者の堅牢性に与える影響を研究した最初の研究です。第二に、線形畳み込みモデルのロバスト性を特徴付け、フーリエ ℓ_∞ ノルムの制約を受ける攻撃に抵抗することを示します。これらの発見を説明するために、制御可能な周波数を持つ敵対的な例を見つける新しいフーリエℓ_∞攻撃を設計します。標準のRobustBenchベンチマークから敵対的に訓練された深いCIFAR-10モデルのFourier-ℓ_∞ロバスト性を評価し、敵対的な摂動を視覚化します。
We demonstrate that the choice of optimizer, neural network architecture, and regularizer significantly affect the adversarial robustness of linear neural networks, providing guarantees without the need for adversarial training. To this end, we revisit a known result linking maximally robust classifiers and minimum norm solutions, and combine it with recent results on the implicit bias of optimizers. First, we show that, under certain conditions, it is possible to achieve both perfect standard accuracy and a certain degree of robustness, simply by training an overparametrized model using the implicit bias of the optimization. In that regime, there is a direct relationship between the type of the optimizer and the attack to which the model is robust. To the best of our knowledge, this work is the first to study the impact of optimization methods such as sign gradient descent and proximal methods on adversarial robustness. Second, we characterize the robustness of linear convolutional models, showing that they resist attacks subject to a constraint on the Fourier-ℓ_∞ norm. To illustrate these findings we design a novel Fourier-ℓ_∞ attack that finds adversarial examples with controllable frequencies. We evaluate Fourier-ℓ_∞ robustness of adversarially-trained deep CIFAR-10 models from the standard RobustBench benchmark and visualize adversarial perturbations.
updated: Mon Jun 07 2021 15:27:16 GMT+0000 (UTC)
published: Wed Feb 17 2021 16:58:04 GMT+0000 (UTC)
