敵対的機械学習はよく研究されている研究分野であり、敵が入力の正確な操作を通じて機械学習アルゴリズムで予測可能なエラーを引き起こします。機械学習アルゴリズムを強化し、敵対的な攻撃の影響を軽減するために、数多くの手法が提案されています。これらの手法の中で、トレーニングデータを敵対的なサンプルで補強する敵対的トレーニングは、特定のクラスの攻撃に対して効果的な防御であることが証明されています。ただし、敵対的なトレーニングは計算コストが高く、その改善は単一のモデルに限定されます。この作業では、モデルにとらわれない敵対的防御を作成するための最初のステップを実行します。特定の適応型敵対者に対して堅牢な最初のモデルにとらわれない敵対的防御である敵対訓練オートエンコーダー拡張(AAA)を提案します。 AAAを使用すると、単一のオートエンコーダをトレーニングして複数の事前トレーニング済み分類子を保護することで、部分的にモデルにとらわれない防御を実現できることを示しています。分類子を変更せずに、同等以上の敵対的パフォーマンスを達成する。さらに、AAAを使用して、MNISTおよびファッションMNISTデータセットの完全なモデルにとらわれない防御を作成できることを示します。これまでに見たことのない事前トレーニング済み分類子の敵対的なパフォーマンスを、追加のトレーニングなしで少なくとも45%改善します。最後に、自然な画像の破損データセットを使用して、私たちのアプローチが自然に破損した画像の堅牢性を向上させることを示します。これは、真の敵対的な堅牢性を強く示すものとして識別されています。
Adversarial machine learning is a well-studied field of research where an adversary causes predictable errors in a machine learning algorithm through precise manipulation of the input. Numerous techniques have been proposed to harden machine learning algorithms and mitigate the effect of adversarial attacks. Of these techniques, adversarial training, which augments the training data with adversarial samples, has proven to be an effective defense with respect to a certain class of attacks. However, adversarial training is computationally expensive and its improvements are limited to a single model. In this work, we take a first step toward creating a model-agnostic adversarial defense. We propose Adversarially-Trained Autoencoder Augmentation (AAA), the first model-agnostic adversarial defense that is robust against certain adaptive adversaries. We show that AAA allows us to achieve a partially model-agnostic defense by training a single autoencoder to protect multiple pre-trained classifiers; achieving adversarial performance on par or better than adversarial training without modifying the classifiers. Furthermore, we demonstrate that AAA can be used to create a fully model-agnostic defense for MNIST and Fashion MNIST datasets by improving the adversarial performance of a never before seen pre-trained classifier by at least 45% with no additional training. Finally, using a natural image corruption dataset, we show that our approach improves robustness to naturally corrupted images,which has been identified as strongly indicative of true adversarial robustness.