arXiv reaDer
意図的な敵対的摂動を介したディープニューラルネットワークのバックドアの検出
Detecting Backdoor in Deep Neural Networks via Intentional Adversarial Perturbations
最近の調査によると、ディープラーニングモデルはバックドア攻撃を受けやすいことがわかっています。バックドア攻撃に対する多くの防御策が提案されています。ただし、既存の防御作業では、高い計算オーバーヘッドまたはトリガーサイズなどのバックドア攻撃情報が必要であり、現実的なシナリオでは満たすことが困難です。本論文では、敵対的な例に基づく新しいバックドア検出方法を提案した。提案された方法は、意図的な敵対的摂動を利用して、画像にトリガーが含まれているかどうかを検出します。トリガーは、トレーニング段階と推論段階の両方に適用できます(トレーニング段階でトレーニングセットをサニタイズし、推論段階でバックドアインスタンスを検出します)。具体的には、信頼できない画像が与えられた場合、敵対的な摂動が意図的に画像に追加されます。摂動された画像のモデルの予測が摂動されていない画像の予測と一致している場合、入力画像はバックドアインスタンスと見なされます。ほとんどの既存の防御作業と比較して、提案された敵対的摂動ベースの方法は、低い計算リソースを必要とし、画像の視覚的品質を維持します。実験結果は、提案された防御方法のバックドア検出率が、Fashion-MNIST、CIFAR-10、およびGTSRBデータセットでそれぞれ99.63%、99.76%、および99.91%であることを示しています。さらに、提案された方法は、追加された摂動のl2ノルムがFashion-MNIST、CIFAR-10、およびGTSRBデータセットでそれぞれ2.8715、3.0513、および2.4362と低いため、画像の視覚的品質を維持します。さらに、提案された方法は、さまざまな攻撃設定(トリガーの透過性、トリガーサイズ、トリガーパターン)の下でバックドア攻撃に対して高い防御パフォーマンスを実現できることも実証されています。既存の防御作業(STRIP)と比較して、提案された方法は3つのデータセットすべてで優れた検出パフォーマンスを持ち、STRIPよりも効率的です。
Recent researches show that deep learning model is susceptible to backdoor attacks. Many defenses against backdoor attacks have been proposed. However, existing defense works require high computational overhead or backdoor attack information such as the trigger size, which is difficult to satisfy in realistic scenarios. In this paper, a novel backdoor detection method based on adversarial examples is proposed. The proposed method leverages intentional adversarial perturbations to detect whether an image contains a trigger, which can be applied in both the training stage and the inference stage (sanitize the training set in training stage and detect the backdoor instances in inference stage). Specifically, given an untrusted image, the adversarial perturbation is added to the image intentionally. If the prediction of the model on the perturbed image is consistent with that on the unperturbed image, the input image will be considered as a backdoor instance. Compared with most existing defense works, the proposed adversarial perturbation based method requires low computational resources and maintains the visual quality of the images. Experimental results show that, the backdoor detection rate of the proposed defense method is 99.63%, 99.76% and 99.91% on Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively. Besides, the proposed method maintains the visual quality of the image as the l2 norm of the added perturbation are as low as 2.8715, 3.0513 and 2.4362 on Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively. In addition, it is also demonstrated that the proposed method can achieve high defense performance against backdoor attacks under different attack settings (trigger transparency, trigger size and trigger pattern). Compared with the existing defense work (STRIP), the proposed method has better detection performance on all the three datasets, and is more efficient than STRIP.
updated: Tue Jun 22 2021 12:30:56 GMT+0000 (UTC)
published: Sat May 29 2021 09:33:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト