この論文では、微妙に変更された入力データを使用して分類器をだます敵対攻撃から分類器を守る方法の問題を研究します。以前の作品とは対照的に、ここでは、攻撃者ができるだけ強力な攻撃を行うために、分類器だけでなく防御者へのフルアクセスを許可されるホワイトボックスの敵対的な防御に焦点を当てます。このような文脈では、従来の固定関数ではなく、関数を引数として関数空間を表す高次関数であるディフェンダーを関数として見ることを提案します。この観点から、防御者は各敵の入力に対して個別に実現および最適化される必要があります。この目的のために、RIDEを提案します。これは、敵の攻撃から予測を保護するために、個々のデータを推定するための効率的で証明可能な収束型自己管理学習アルゴリズムです。画像認識における敵の防御性能の大幅な改善を実証します。例えば、MNIST、CIFAR-10、ImageNetデータセットでの最新のBPDA攻撃者のテスト精度はそれぞれ98%、76%、43%です。
In this paper, we study the problem of how to defend classifiers against adversarial attacks that fool the classifiers using subtly modified input data. In contrast to previous works, here we focus on the white-box adversarial defense where the attackers are granted full access to not only the classifiers but also defenders to produce as strong attacks as possible. In such a context we propose viewing a defender as a functional, a higher-order function that takes functions as its argument to represent a function space, rather than fixed functions conventionally. From this perspective, a defender should be realized and optimized individually for each adversarial input. To this end, we propose RIDE, an efficient and provably convergent self-supervised learning algorithm for individual data estimation to protect the predictions from adversarial attacks. We demonstrate the significant improvement of adversarial defense performance on image recognition, eg, 98%, 76%, 43% test accuracy on MNIST, CIFAR-10, and ImageNet datasets respectively under the state-of-the-art BPDA attacker.