ディープニューラルネットワーク(DNN)を中継するセキュリティに敏感なアプリケーションは、人間が認識できない敵対的な例(AE)を生成するように作成された小さな摂動に対して脆弱であり、DNNがそれらを誤分類します。多くの防御および検出技術が提案されています。最先端の検出技術は、特定の攻撃または他の人による破壊のために設計されており、攻撃に関する知識が必要であり、一貫性がなく、モデルパラメータのオーバーヘッドが増加し、時間がかかり、推論時間に遅延があります。これらの要因をトレードオフするために、選択的予測、モデルレイヤー出力の処理、およびマルチタスク学習設定での知識伝達の概念を使用する、新しい教師なし検出メカニズムを提案します。これは、選択的および機能ベースの敵対的検出(SFAD)と呼ばれます。実験結果は、提案されたアプローチが、ホワイトボックスシナリオでテストされた攻撃に対して最先端の方法に匹敵する結果を達成し、ブラックボックスシナリオとグレーボックスシナリオでより良い結果を達成することを示しています。さらに、結果は、SFADがMNISTのHigh Confidence Attacks(HCA)に対して完全に堅牢であり、CIFAR-10データセットに対して部分的に堅牢であることを示しています。
Security-sensitive applications that relay on Deep Neural Networks (DNNs) are vulnerable to small perturbations crafted to generate Adversarial Examples (AEs) that are imperceptible to human and cause DNN to misclassify them. Many defense and detection techniques have been proposed. The state-of-the-art detection techniques have been designed for specific attacks or broken by others, need knowledge about the attacks, are not consistent, increase model parameters overhead, are time-consuming, or have latency in inference time. To trade off these factors, we propose a novel unsupervised detection mechanism that uses the selective prediction, processing model layers outputs, and knowledge transfer concepts in a multi-task learning setting. It is called Selective and Feature based Adversarial Detection (SFAD). Experimental results show that the proposed approach achieves comparable results to the state-of-the-art methods against tested attacks in white box scenario and better results in black and gray boxes scenarios. Moreover, results show that SFAD is fully robust against High Confidence Attacks (HCAs) for MNIST and partially robust for CIFAR-10 datasets.