Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching
データポイズニング攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御します。この作業では、変更されていないテストイメージの再分類を引き起こし、モデルの整合性を侵害する標的型中毒攻撃に焦点を当てます。 「ゼロから」と「クリーンラベル」の両方である特に悪意のある中毒攻撃を検討します。つまり、ランダムに初期化された新しいモデルに対して正常に機能し、人間にはほとんど知覚できない攻撃を分析しますが、その一部だけを混乱させます。トレーニングデータ。この設定でのディープニューラルネットワークに対する以前のポイズニング攻撃は、範囲と成功が制限されており、単純化された設定でのみ機能するか、大規模なデータセットでは法外な費用がかかります。新しい攻撃の中心的なメカニズムは、悪意のある例の勾配方向を一致させることです。これが機能する理由を分析し、実際的な考慮事項を補足します。そして、実世界の実務家に脅威を示し、フルサイズのポイズニングされたImageNetデータセットでゼロからトレーニングされた最新のディープネットワークでターゲットを絞った誤分類を引き起こす最初のポイズニング方法であることを発見しました。最後に、このような攻撃に対する既存の防御戦略の限界を示し、大規模な深層学習システムであっても、データポイズニングは信頼できる脅威であると結論付けます。
Data Poisoning attacks modify training data to maliciously control a model trained on such data. In this work, we focus on targeted poisoning attacks which cause a reclassification of an unmodified test image and as such breach model integrity. We consider a particularly malicious poisoning attack that is both "from scratch" and "clean label", meaning we analyze an attack that successfully works against new, randomly initialized models, and is nearly imperceptible to humans, all while perturbing only a small fraction of the training data. Previous poisoning attacks against deep neural networks in this setting have been limited in scope and success, working only in simplified settings or being prohibitively expensive for large datasets. The central mechanism of the new attack is matching the gradient direction of malicious examples. We analyze why this works, supplement with practical considerations. and show its threat to real-world practitioners, finding that it is the first poisoning method to cause targeted misclassification in modern deep networks trained from scratch on a full-sized, poisoned ImageNet dataset. Finally we demonstrate the limitations of existing defensive strategies against such an attack, concluding that data poisoning is a credible threat, even for large-scale deep learning systems.
updated: Mon May 10 2021 15:58:21 GMT+0000 (UTC)
published: Fri Sep 04 2020 16:17:54 GMT+0000 (UTC)
