Deep k-NN Defense against Clean-label Data Poisoning Attacks
 ターゲットクリーンラベルデータポイズニングは、機械学習システムに対する攻撃の一種であり、攻撃者は、正しくラベル付けされた、摂動の少ないサンプルをトレーニングデータに注入し、推論中にモデルが特定のテストサンプルを誤分類するようにします。一般的な中毒攻撃に対しては防御が提案されていますが、攻撃の有効性と現実的なアプリケーションにもかかわらず、クリーンラベル攻撃に対する信頼できる防御は実証されていません。この作業では、CIFAR-10データセットに対する機能の衝突と凸型ポリトープクリーンラベル攻撃の両方に対する、シンプルでありながら非常に効果的なDeep k-NN防御を提案します。私たちの提案する戦略は、両方の攻撃で有毒な例の99%以上を検出し、モデルのパフォーマンスを損なうことなくそれらを削除できることを示しています。さらに、アブレーション研究を通じて、kの値を選択するための簡単なガイドラインを発見し、クラス不均衡のある現実のデータセットにDeep k-NN防御を実装します。提案された防御は、現在のクリーンラベル中毒攻撃戦略を無効にできることを示しており、将来のクリーンラベル中毒攻撃をテストするための強力でありながら実装が簡単なベースライン防御として機能します。コードはで入手できます。
Targeted clean-label data poisoning is a type of adversarial attack on machine learning systems in which an adversary injects a few correctly-labeled, minimally-perturbed samples into the training data, causing a model to misclassify a particular test sample during inference. Although defenses have been proposed for general poisoning attacks, no reliable defense for clean-label attacks has been demonstrated, despite the attacks' effectiveness and realistic applications. In this work, we propose a simple, yet highly-effective Deep k-NN defense against both feature collision and convex polytope clean-label attacks on the CIFAR-10 dataset. We demonstrate that our proposed strategy is able to detect over 99% of poisoned examples in both attacks and remove them without compromising model performance. Additionally, through ablation studies, we discover simple guidelines for selecting the value of k as well as for implementing the Deep k-NN defense on real-world datasets with class imbalance. Our proposed defense shows that current clean-label poisoning attack strategies can be annulled, and serves as a strong yet simple-to-implement baseline defense to test future clean-label poisoning attacks. Our code is available at
updated: Thu Aug 13 2020 05:47:23 GMT+0000 (UTC)
published: Sun Sep 29 2019 21:47:14 GMT+0000 (UTC)
