arXiv reaDer
CorruptEncoder: 対照学習に対するデータ ポイズニング ベースのバックドア攻撃
CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning
対照学習 (CL) は、画像または画像とテキストのペアで構成される、ラベル付けされていない事前トレーニング データセットを使用して、汎用エンコーダーを事前トレーニングします。 CL は、データ ポイズニング ベースのバックドア攻撃 (DPBA) に対して脆弱です。この攻撃では、攻撃者が有害な入力をトレーニング前のデータセットに挿入して、エンコーダーをバックドアにします。ただし、既存の DPBA の効果は限られています。この作業では、CorruptEncoder と呼ばれる新しい DPBA を CL に提案します。 CorruptEncoder は、理論に基づいた方法を使用して、最適な有害な入力を作成し、攻撃の有効性を最大化します。私たちの実験では、CorruptEncoder が既存の DPBA よりも大幅に優れていることが示されています。特に、CorruptEncoder は、少数 (3) の参照イメージと小さなポイズニング率 (0.5%) で 90% を超える攻撃成功率を達成した最初の DPBA です。さらに、DPBA から防御するために、ローカライズド クロッピングと呼ばれる防御策も提案します。私たちの結果は、エンコーダーの有用性をわずかに犠牲にしますが、防御が DPBA の有効性を低下させる可能性があることを示しています。
Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images or image-text pairs. CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we propose new DPBAs called CorruptEncoder to CL. CorruptEncoder uses a theory-guided method to create optimal poisoned inputs to maximize attack effectiveness. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs. In particular, CorruptEncoder is the first DPBA that achieves more than 90% attack success rates with only a few (3) reference images and a small poisoning ratio (0.5%). Moreover, we also propose a defense, called localized cropping, to defend against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, though it slightly sacrifices the utility of the encoder.
updated: Thu Mar 09 2023 02:16:37 GMT+0000 (UTC)
published: Tue Nov 15 2022 15:48:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト