arXiv reaDer
暗黙のハイパーグラディエントを介したバックドアの敵対的非学習
Adversarial Unlearning of Backdoors via Implicit Hypergradient
クリーンなデータの小さなセットに基づいて、特定の被毒モデルからバックドアを削除するためのミニマックス定式化を提案します。この定式化には、バックドアの削除に関する以前の作業の多くが含まれています。ミニマックスを解くために、Implicit Bacdoor Adversarial Unlearning(I-BAU)アルゴリズムを提案します。ミニマックスを内部と外部の別々の問題に分解する以前の作業とは異なり、私たちのアルゴリズムは、内部と外部の最適化の間の相互依存性を説明するために暗黙のハイパーグラディエントを利用します。クリーンなデータのミニマックスを見えないテストデータに解くことによって得られるロバスト性の収束と一般化可能性を理論的に分析します。私たちの評価では、I-BAUを、2つのデータセットに対する7つのバックドア攻撃に対する6つの最先端のバックドア防御と、攻撃者が1つのクラスを標的とする一般的な設定や、複数のクラスが存在する重要であるが十分に検討されていない設定など、さまざまな攻撃設定と比較します。対象とされています。 I-BAUのパフォーマンスは、最良のベースラインに匹敵し、ほとんどの場合、大幅に優れています。特に、そのパフォーマンスは、トリガー、攻撃設定、ポアソン比、およびクリーンなデータサイズの変動に対してより堅牢です。さらに、I-BAUを有効にするには、必要な計算が少なくて済みます。特に、単一ターゲット攻撃設定で最も効率的なベースラインよりも13倍以上高速です。さらに、防御側が100個のクリーンなサンプルにしかアクセスできない極端な場合(すべてのベースラインが許容可能な結果を生成できない設定)でも、効果を維持できます。
We propose a minimax formulation for removing backdoors from a given poisoned model based on a small set of clean data. This formulation encompasses much of prior work on backdoor removal. We propose the Implicit Bacdoor Adversarial Unlearning (I-BAU) algorithm to solve the minimax. Unlike previous work, which breaks down the minimax into separate inner and outer problems, our algorithm utilizes the implicit hypergradient to account for the interdependence between inner and outer optimization. We theoretically analyze its convergence and the generalizability of the robustness gained by solving minimax on clean data to unseen test data. In our evaluation, we compare I-BAU with six state-of-art backdoor defenses on seven backdoor attacks over two datasets and various attack settings, including the common setting where the attacker targets one class as well as important but underexplored settings where multiple classes are targeted. I-BAU's performance is comparable to and most often significantly better than the best baseline. Particularly, its performance is more robust to the variation on triggers, attack settings, poison ratio, and clean data size. Moreover, I-BAU requires less computation to take effect; particularly, it is more than 13× faster than the most efficient baseline in the single-target attack setting. Furthermore, it can remain effective in the extreme case where the defender can only access 100 clean samples -- a setting where all the baselines fail to produce acceptable results.
updated: Thu Oct 14 2021 15:20:59 GMT+0000 (UTC)
published: Thu Oct 07 2021 18:32:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト