arXiv reaDer
潜在的な分離可能性に基づくバックドア防御の回避
Circumventing Backdoor Defenses That Are Based on Latent Separability
最近の研究では、ディープ ラーニングがバックドア ポイズニング攻撃を受けやすいことが明らかになりました。攻撃者は、トレーニング プロセスを制御することなく、いくつかのトレーニング データを変更するだけで、モデルに隠されたバックドアを埋め込んでその予測を操作することができます。現在、さまざまなバックドア ポイズニング攻撃で具体的なシグネチャが広く観察されています。ポイズニングされたデータセットでトレーニングされたモデルは、ポイズン サンプルとクリーン サンプルの分離可能な潜在表現を学習する傾向があります。この潜在的分離は非常に広範囲に及ぶため、バックドア防御のファミリーはそれをデフォルトの仮定 (潜在的分離可能性仮定と呼ばれる) として直接採用しており、これに基づいて、潜在空間でクラスター分析を介して毒サンプルを識別します。その結果、興味深い質問が続きます。潜在的な分離は、バックドア ポイズニング攻撃では避けられないのでしょうか?この質問は、潜在的な分離可能性の仮定がバックドア ポイズニング攻撃に対する防御のための信頼できる基盤を提供するかどうかを理解する上で重要です。この論文では、適応型バックドア ポイズニング攻撃を設計して、この仮定に対する反例を示します。私たちの方法には、2 つの重要なコンポーネントが含まれています。 (2) 攻撃成功率 (ASR) を高め、毒サンプルの潜在的な表現を多様化するのに役立つ非対称トリガー植え付け戦略。ベンチマーク データセットに関する広範な実験により、既存の潜在的な分離ベースのバックドア防御をバイパスする適応型攻撃の有効性が検証されます。さらに、私たちの攻撃は依然として高い攻撃成功率を維持しており、クリーンな精度の低下はほとんどありません。私たちの調査では、防御の設計者が潜在的な分離を防御の前提として利用する場合は注意が必要です。
Recent studies revealed that deep learning is susceptible to backdoor poisoning attacks. An adversary can embed a hidden backdoor into a model to manipulate its predictions by only modifying a few training data, without controlling the training process. Currently, a tangible signature has been widely observed across a diverse set of backdoor poisoning attacks -- models trained on a poisoned dataset tend to learn separable latent representations for poison and clean samples. This latent separation is so pervasive that a family of backdoor defenses directly take it as a default assumption (dubbed latent separability assumption), based on which to identify poison samples via cluster analysis in the latent space. An intriguing question consequently follows: is the latent separation unavoidable for backdoor poisoning attacks? This question is central to understanding whether the assumption of latent separability provides a reliable foundation for defending against backdoor poisoning attacks. In this paper, we design adaptive backdoor poisoning attacks to present counter-examples against this assumption. Our methods include two key components: (1) a set of trigger-planted samples correctly labeled to their semantic classes (other than the target class) that can regularize backdoor learning; (2) asymmetric trigger planting strategies that help to boost attack success rate (ASR) as well as to diversify latent representations of poison samples. Extensive experiments on benchmark datasets verify the effectiveness of our adaptive attacks in bypassing existing latent separation based backdoor defenses. Moreover, our attacks still maintain a high attack success rate with negligible clean accuracy drop. Our studies call for defense designers to take caution when leveraging latent separation as an assumption in their defenses.
updated: Sat Mar 04 2023 03:53:50 GMT+0000 (UTC)
published: Thu May 26 2022 20:40:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト