arXiv reaDer
デッキ:広範なバックドアを防御するためのモデル強化
DECK: Model Hardening for Defending Pervasive Backdoors
パーベイシブバックドアは、動的でパーベイシブな入力摂動によってトリガーされます。それらは、攻撃者によって意図的に注入されるか、通常のトレーニングを受けたモデルに自然に存在する可能性があります。これらは、従来の静的およびローカライズされたバックドアとは異なる性質を持っており、固定パターン、たとえば単色のパッチで小さな入力領域を混乱させることによってトリガーできます。既存の防御技術は、従来のバックドアに対して非常に効果的です。ただし、特にバックドアの削除やモデルの強化に関しては、普及しているバックドアではうまく機能しない可能性があります。この論文では、自然なバックドアと注入されたバックドアの両方を含む、普及しているバックドアに対する新しいモデル強化手法を提案します。特別な変換レイヤーで強化されたエンコーダー-デコーダーアーキテクチャに基づいて、一般的な広範囲の攻撃を開発します。この攻撃は、広範囲にわたる既存のバックドア攻撃をモデル化し、クラスの距離によってそれらを定量化することができます。そのため、敵対的なトレーニングで攻撃から得られたサンプルを使用すると、これらのバックドアの脆弱性に対するモデルを強化できます。 15のモデル構造を持つ9つのデータセットに対する評価では、私たちの手法は、精度の低下が1%未満で、堅牢性の損失がなく、クラス距離を平均59.65%拡大でき、敵対的トレーニング、ユニバーサル敵対的トレーニング、MOTHなどの5つの強化手法を上回っています。 。これにより、6回の広範なバックドア攻撃の攻撃成功率を99.06%から1.94%に下げることができ、7つの最先端のバックドア除去技術を上回ります。
Pervasive backdoors are triggered by dynamic and pervasive input perturbations. They can be intentionally injected by attackers or naturally exist in normally trained models. They have a different nature from the traditional static and localized backdoors that can be triggered by perturbing a small input area with some fixed pattern, e.g., a patch with solid color. Existing defense techniques are highly effective for traditional backdoors. However, they may not work well for pervasive backdoors, especially regarding backdoor removal and model hardening. In this paper, we propose a novel model hardening technique against pervasive backdoors, including both natural and injected backdoors. We develop a general pervasive attack based on an encoder-decoder architecture enhanced with a special transformation layer. The attack can model a wide range of existing pervasive backdoor attacks and quantify them by class distances. As such, using the samples derived from our attack in adversarial training can harden a model against these backdoor vulnerabilities. Our evaluation on 9 datasets with 15 model structures shows that our technique can enlarge class distances by 59.65% on average with less than 1% accuracy degradation and no robustness loss, outperforming five hardening techniques such as adversarial training, universal adversarial training, MOTH, etc. It can reduce the attack success rate of six pervasive backdoor attacks from 99.06% to 1.94%, surpassing seven state-of-the-art backdoor removal techniques.
updated: Sat Jun 18 2022 19:46:06 GMT+0000 (UTC)
published: Sat Jun 18 2022 19:46:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト