最近、バックドアと呼ばれるディープニューラルネットワーク(DNN)分類器を標的とする特別なタイプのデータポイズニング(DP)攻撃が提案されました。これらの攻撃は、分類の精度を低下させようとするのではなく、テストの例にバックドアパターンが存在する場合は常に、分類子にターゲットクラスへの分類を学習させます。バックドア攻撃を開始するには、分類子またはそのトレーニングプロセスの知識は必要ありません。十分に強力なバックドアパターン(ターゲットクラスでラベル付けされた)を含む(十分な数の)イグザンプラでトレーニングセットを汚染する能力が必要です。ここでは、DNN画像分類器でのバックドア攻撃のトレーニング後の検出について扱います。これは、既存の作品ではほとんど考慮されていません。防御者は、毒されたトレーニングセットにはアクセスできず、トレーニングされた分類器自体にアクセスできるだけでなく、分類ドメイン。これは重要なシナリオです。訓練された分類子が、たとえば多くのユーザーと共有される電話アプリ。したがって、トレーニング後のバックドアを検出すると、広範囲にわたる攻撃が明らかになる可能性があります。知覚できないバックドア攻撃に対する純粋な監視なしの異常検出(AD)防御を提案します。 ii)検出された攻撃に関与するソースクラスとターゲットクラスを推測します。 iii)バックドアパターンを正確に推定できることを示します。いくつかのバックドアパターン、データセット、攻撃設定について、代替の防御策と比較してADアプローチをテストし、その好意を実証します。私たちの防御は基本的に、単一のハイパーパラメーター(検出しきい値)を設定する必要があります。システムの誤検知率を修正するために選択されます。
Recently, a special type of data poisoning (DP) attack targeting Deep Neural Network (DNN) classifiers, known as a backdoor, was proposed. These attacks do not seek to degrade classification accuracy, but rather to have the classifier learn to classify to a target class whenever the backdoor pattern is present in a test example. Launching backdoor attacks does not require knowledge of the classifier or its training process - it only needs the ability to poison the training set with (a sufficient number of) exemplars containing a sufficiently strong backdoor pattern (labeled with the target class). Here we address post-training detection of backdoor attacks in DNN image classifiers, seldom considered in existing works, wherein the defender does not have access to the poisoned training set, but only to the trained classifier itself, as well as to clean examples from the classification domain. This is an important scenario because a trained classifier may be the basis of e.g. a phone app that will be shared with many users. Detecting backdoors post-training may thus reveal a widespread attack. We propose a purely unsupervised anomaly detection (AD) defense against imperceptible backdoor attacks that: i) detects whether the trained DNN has been backdoor-attacked; ii) infers the source and target classes involved in a detected attack; iii) we even demonstrate it is possible to accurately estimate the backdoor pattern. We test our AD approach, in comparison with alternative defenses, for several backdoor patterns, data sets, and attack settings and demonstrate its favorability. Our defense essentially requires setting a single hyperparameter (the detection threshold), which can e.g. be chosen to fix the system's false positive rate.