ニューラルネットワークベースの分類子の敵対的操作に対する堅牢性の評価は、正確な計算の方法が利用可能な場合でも大規模ネットワークにスケーリングしないため、主に経験的攻撃でテストされます。この論文では、与えられた入力のクラスを変更するために必要な最小の摂動を見つけることを目的とした、p∈{1,2、∞}のl_pノルムに関する新しいホワイトボックス敵対攻撃を提案します。それは直感的な幾何学的な意味を持ち、すぐに高品質の結果をもたらし、摂動のサイズを最小化します(そのため、単一の実行ですべてのしきい値でロバストな精度を返します)。これは、1つのl_p-normに部分的に特化した最新の攻撃によく似ており、勾配マスキングの現象に対して堅牢です。
The evaluation of robustness against adversarial manipulation of neural networks-based classifiers is mainly tested with empirical attacks as methods for the exact computation, even when available, do not scale to large networks. We propose in this paper a new white-box adversarial attack wrt the l_p-norms for p ∈{1,2,∞} aiming at finding the minimal perturbation necessary to change the class of a given input. It has an intuitive geometric meaning, yields quickly high quality results, minimizes the size of the perturbation (so that it returns the robust accuracy at every threshold with a single run). It performs better or similar to state-of-the-art attacks which are partially specialized to one l_p-norm, and is robust to the phenomenon of gradient masking.