ディープ ニューラル ネットワーク (DNN) は敵対的な例に対して脆弱ですが、DeepFool などの敵対的な攻撃モデルは増加傾向にあり、敵対的な例の検出手法を追い越しています。このホワイトペーパーでは、画像データセットに対する最新の敵対的攻撃の識別において、最先端の検出器よりも優れた新しい敵対的サンプル検出器を紹介します。具体的には、敵対的な例の検出に感情分析を使用することを提案します。これは、攻撃を受けている DNN の隠れ層の特徴マップに対する敵対的な摂動の漸進的な影響によって修飾されます。したがって、最小の学習可能なパラメーターを使用してモジュール化された埋め込みレイヤーを設計し、隠れレイヤーの特徴マップを単語ベクトルに埋め込み、感情分析の準備が整った文章を組み立てます。 CIFAR-10、CIFAR-100、および SVHN データセット上の ResNet および Inception ニュートラル ネットワークに対して開始された最新の攻撃の検出において、新しい検出器が最先端の検出アルゴリズムを一貫して上回っていることを広範な実験が示しています。検出器には約 200 万個のパラメーターしかなく、Tesla K80 GPU カードを使用した最新の攻撃モデルによって生成された敵対的な例を検出するのに 4.6 ミリ秒未満しかかかりません。
Deep Neural Networks (DNNs) are vulnerable to adversarial examples, while adversarial attack models, e.g., DeepFool, are on the rise and outrunning adversarial example detection techniques. This paper presents a new adversarial example detector that outperforms state-of-the-art detectors in identifying the latest adversarial attacks on image datasets. Specifically, we propose to use sentiment analysis for adversarial example detection, qualified by the progressively manifesting impact of an adversarial perturbation on the hidden-layer feature maps of a DNN under attack. Accordingly, we design a modularized embedding layer with the minimum learnable parameters to embed the hidden-layer feature maps into word vectors and assemble sentences ready for sentiment analysis. Extensive experiments demonstrate that the new detector consistently surpasses the state-of-the-art detection algorithms in detecting the latest attacks launched against ResNet and Inception neutral networks on the CIFAR-10, CIFAR-100 and SVHN datasets. The detector only has about 2 million parameters, and takes shorter than 4.6 milliseconds to detect an adversarial example generated by the latest attack models using a Tesla K80 GPU card.