arXiv reaDer
敵対的攻撃検出のためのランダムな予測
Random Projections for Adversarial Attack Detection
敵対的攻撃の検出はかなりの注目を集めていますが、2つの観点から根本的に挑戦的な問題のままです。まず、脅威モデルは明確に定義できますが、攻撃者の戦略はこれらの制約内で大きく異なる可能性があります。したがって、現在のほとんどの検出戦略とは対照的に、検出はオープンセットの問題と見なす必要があります。これらの方法は、閉集合ビューを取り、バイナリ検出器をトレーニングするため、検出器のトレーニング中に見られる攻撃に検出を偏らせます。第二に、情報はテスト時に制限され、ラベルや画像の基礎となるコンテンツなどの迷惑な要因によって混乱します。現在の高性能技術の多くは、これらの問題のいくつかに対処するためにトレーニングセットを使用していますが、検出ステップ中のそれらのセットの全体的なサイズと多様性によって制限される可能性があります。ランダム部分空間分析に基づく新しい戦略を介してこれらの課題に対処します。ランダム射影の特殊なプロパティを利用する手法を紹介します。これにより、さまざまな部分空間のセット全体で、クリーンで敵対的な例の動作を特徴付けることができます。次に、モデルのアクティブ化の自己整合性(または不整合性)を活用して、敵対的な例からクリーンを識別します。パフォーマンス評価は、攻撃方法自体にとらわれずに、私たちの手法が競合する最先端(SOTA)の攻撃戦略よりも優れている(> 0.92 AUC)ことを示しています。また、より厳密なテストシナリオで評価した場合、偶然のパフォーマンスのみを達成する競合するSOTAメソッドと比較すると、クリーンな例のみで構成されるトレーニングデータが大幅に少なくて済みます。
Whilst adversarial attack detection has received considerable attention, it remains a fundamentally challenging problem from two perspectives. First, while threat models can be well-defined, attacker strategies may still vary widely within those constraints. Therefore, detection should be considered as an open-set problem, standing in contrast to most current detection strategies. These methods take a closed-set view and train binary detectors, thus biasing detection toward attacks seen during detector training. Second, information is limited at test time and confounded by nuisance factors including the label and underlying content of the image. Many of the current high-performing techniques use training sets for dealing with some of these issues, but can be limited by the overall size and diversity of those sets during the detection step. We address these challenges via a novel strategy based on random subspace analysis. We present a technique that makes use of special properties of random projections, whereby we can characterize the behavior of clean and adversarial examples across a diverse set of subspaces. We then leverage the self-consistency (or inconsistency) of model activations to discern clean from adversarial examples. Performance evaluation demonstrates that our technique outperforms (>0.92 AUC) competing state of the art (SOTA) attack strategies, while remaining truly agnostic to the attack method itself. It also requires significantly less training data, composed only of clean examples, when compared to competing SOTA methods, which achieve only chance performance, when evaluated in a more rigorous testing scenario.
updated: Fri Dec 11 2020 15:02:28 GMT+0000 (UTC)
published: Fri Dec 11 2020 15:02:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト