大規模なラベルのないデータは、豊かな視覚表現を学習する自己監視学習法の最近の進歩に拍車をかけています。画像(MoCo、BYOL、MSFなど)から表現を学習するための最先端の自己監視方式では、画像のランダムな拡張(ランダムなトリミングなど)によって同様の埋め込みが生成されるという誘導バイアスが使用されます。このような方法はバックドア攻撃に対して脆弱であることを示します。攻撃者は、トリガー(攻撃者が選択した画像パッチ)を画像に追加することで、ラベルのないデータのごく一部をポイズニングします。モデルのパフォーマンスはクリーンなテストイメージで良好ですが、攻撃者はテスト時にトリガーを表示することでモデルの決定を操作できます。バックドア攻撃は教師あり学習で広く研究されており、私たちの知る限りでは、私たちは教師あり学習のためにそれらを研究する最初の人です。ラベルのない大規模なデータを使用すると、毒物を除去するためのデータ検査が禁止されるため、バックドア攻撃は自己監視学習でより実用的です。ターゲットを絞った攻撃では、攻撃者がテスト時にトリガーを使用することで、ターゲットカテゴリに対して多くの誤検知を生成する可能性があることを示しています。また、攻撃を中和することに成功する知識蒸留ベースの防御アルゴリズムを提案します。私たちのコードはここから入手できます:https://github.com/UMBCvision/SSL-Backdoor。
Large-scale unlabeled data has spurred recent progress in self-supervised learning methods that learn rich visual representations. State-of-the-art self-supervised methods for learning representations from images (e.g., MoCo, BYOL, MSF) use an inductive bias that random augmentations (e.g., random crops) of an image should produce similar embeddings. We show that such methods are vulnerable to backdoor attacks - where an attacker poisons a small part of the unlabeled data by adding a trigger (image patch chosen by the attacker) to the images. The model performance is good on clean test images, but the attacker can manipulate the decision of the model by showing the trigger at test time. Backdoor attacks have been studied extensively in supervised learning and to the best of our knowledge, we are the first to study them for self-supervised learning. Backdoor attacks are more practical in self-supervised learning, since the use of large unlabeled data makes data inspection to remove poisons prohibitive. We show that in our targeted attack, the attacker can produce many false positives for the target category by using the trigger at test time. We also propose a knowledge distillation based defense algorithm that succeeds in neutralizing the attack. Our code is available here: https://github.com/UMBCvision/SSL-Backdoor .