Testing Robustness Against Unforeseen Adversaries
ほとんどの既存の敵対的防御は、L_p敵対的攻撃に対する堅牢性のみを測定します。敵が小さなL_p摂動を独占的に作成する可能性が低いだけでなく、敵が修正されたままになることはほとんどありません。敵は攻撃を適応させ、進化させます。したがって、敵対的な防御は、予期しない広範囲の攻撃に対して堅牢でなければなりません。 ImageNet-UAと呼ばれる新しい評価フレームワークを提案することにより、研究と現実のこの不一致に対処します。私たちのフレームワークにより、研究コミュニティはトレーニング中に発生しない攻撃に対するImageNetモデルの堅牢性をテストできます。 ImageNet-UAの多様な攻撃スイートを作成するために、合計4つの新しい敵対的な攻撃を紹介します。また、ImageNet-UAと比較して、一般的なL_infロバストネス評価がモデルのロバストネスを狭く説明していることも示しています。 ImageNet-UAで現在の防御を評価することにより、予期しない攻撃に対して堅牢性がほとんど提供されないことがわかります。 ImageNet-UAの多様性とリアリズムの向上により、トレーニング中に見られる攻撃を超えて一般化できる、より堅牢な防御の開発が可能になることを願っています。
Most existing adversarial defenses only measure robustness to L_p adversarial attacks. Not only are adversaries unlikely to exclusively create small L_p perturbations, adversaries are unlikely to remain fixed. Adversaries adapt and evolve their attacks; hence adversarial defenses must be robust to a broad range of unforeseen attacks. We address this discrepancy between research and reality by proposing a new evaluation framework called ImageNet-UA. Our framework enables the research community to test ImageNet model robustness against attacks not encountered during training. To create ImageNet-UA's diverse attack suite, we introduce a total of four novel adversarial attacks. We also demonstrate that, in comparison to ImageNet-UA, prevailing L_inf robustness assessments give a narrow account of model robustness. By evaluating current defenses with ImageNet-UA, we find they provide little robustness to unforeseen attacks. We hope the greater variety and realism of ImageNet-UA enables development of more robust defenses which can generalize beyond attacks seen during training.
updated: Tue Jun 09 2020 05:17:48 GMT+0000 (UTC)
published: Wed Aug 21 2019 17:36:48 GMT+0000 (UTC)
