敵対的な攻撃に対してニューラルネットワークを強化するために、幅広い防御が提案されています。ただし、敵の防御の大部分が新しい攻撃によってすぐに破られるパターンが出現しました。堅牢な防御の生成に成功していないことを考えると、根本的な質問をすることになります。敵対的な攻撃は避けられないのでしょうか?このホワイトペーパーでは、理論的な観点から敵対者の例を分析し、敵対者攻撃に対する分類子の感受性に関する基本的な限界を特定します。特定のクラスの問題では、敵対的な例は避けられないことを示します。実験を使用して、実世界の問題に対する理論的保証の意味を調査し、次元や画像の複雑さなどの要因が敵の例に対する分類器の堅牢性をどのように制限するかを説明します。
A wide range of defenses have been proposed to harden neural networks against adversarial attacks. However, a pattern has emerged in which the majority of adversarial defenses are quickly broken by new attacks. Given the lack of success at generating robust defenses, we are led to ask a fundamental question: Are adversarial attacks inevitable? This paper analyzes adversarial examples from a theoretical perspective, and identifies fundamental bounds on the susceptibility of a classifier to adversarial attacks. We show that, for certain classes of problems, adversarial examples are inescapable. Using experiments, we explore the implications of theoretical guarantees for real-world problems and discuss how factors such as dimensionality and image complexity limit a classifier's robustness against adversarial examples.