arXiv reaDer
敵対的攻撃に対するテスト時間防御: マスクされたオートエンコーダーによる敵対的例の検出と再構築
Test-time Defense against Adversarial Attacks: Detection and Reconstruction of Adversarial Examples via Masked Autoencoder
敵対的攻撃に対する既存の防御方法は、トレーニング時間防御とテスト時間防御に分類できます。トレーニング時間防御、つまり敵対的トレーニングは、トレーニングにかなりの余分な時間を必要とし、目に見えない攻撃に一般化できないことがよくあります。一方、テスト時間の重みの適応によるテスト時間の防御には、モデルの重み (の一部) で勾配降下を実行するためのアクセスが必要であり、固定された重みを持つモデルでは実行できない可能性があります。これらの課題に対処するために、Masked autoencoder (MAE) を介して複数のタイプの敵対的攻撃を検出および再構築する新しい防御方法である DRAM を提案します。 MAE 損失を使用して KS テストを構築し、敵対的攻撃を検出する方法を示します。さらに、MAE の損失は、目に見えない攻撃タイプからの敵対的なサンプルを修復するために使用できます。この意味で、DRAM はテスト時にモデルの重みを更新する必要もなく、より多くの敵対的サンプルでトレーニング セットを増強する必要もありません。大規模な ImageNet データで DRAM を評価すると、他の検出ベースラインと比較して、8 種類の敵対的攻撃で平均 82% という最高の検出率を達成しています。再構成の場合、DRAM は、回転予測や対照学習などの他の自己監視タスクと比較して、標準 ResNet50 で 6% ~ 41%、Robust ResNet50 で 3% ~ 8% のロバスト精度を向上させます。
Existing defense methods against adversarial attacks can be categorized into training time and test time defenses. Training time defense, i.e., adversarial training, requires a significant amount of extra time for training and is often not able to be generalized to unseen attacks. On the other hand, test time defense by test time weight adaptation requires access to perform gradient descent on (part of) the model weights, which could be infeasible for models with frozen weights. To address these challenges, we propose DRAM, a novel defense method to Detect and Reconstruct multiple types of Adversarial attacks via Masked autoencoder (MAE). We demonstrate how to use MAE losses to build a KS-test to detect adversarial attacks. Moreover, the MAE losses can be used to repair adversarial samples from unseen attack types. In this sense, DRAM neither requires model weight updates in test time nor augments the training set with more adversarial samples. Evaluating DRAM on the large-scale ImageNet data, we achieve the best detection rate of 82% on average on eight types of adversarial attacks compared with other detection baselines. For reconstruction, DRAM improves the robust accuracy by 6% ~ 41% for Standard ResNet50 and 3% ~ 8% for Robust ResNet50 compared with other self-supervision tasks, such as rotation prediction and contrastive learning.
updated: Wed Mar 22 2023 18:14:02 GMT+0000 (UTC)
published: Wed Mar 22 2023 18:14:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト