バックドア攻撃は、機械学習モデルに対する主要な脅威の 1 つです。バックドアを軽減するために、さまざまな取り組みが行われています。ただし、既存の防御はますます複雑になり、多くの場合、大量の計算リソースが必要になるか、モデルの有用性が損なわれる可能性があります。この作業では、最も一般的で採用しやすい機械学習トレーニング操作の 1 つである微調整により、モデルの高い有用性を維持しながら、機械学習モデルからバックドアを効果的に除去できることを示します。 3 つの機械学習パラダイムにわたる広範な実験により、微調整と新しく提案された超微調整が強力な防御性能を達成することが示されています。さらに、バックドアが削除される前後の他の攻撃に対するモデルの脆弱性の変化を測定するために、バックドア後遺症という新しい用語を作りました。経験的評価によると、他の防御方法と比較して、超微調整ではバックドアの後遺症が限定的であることが示されています。私たちの結果が、機械学習モデルの所有者がバックドアの脅威からモデルをより適切に保護するのに役立つことを願っています。また、機械学習モデルのバックドアの脆弱性を包括的に評価するために、より高度な攻撃の設計が求められています。
Backdoor attacks represent one of the major threats to machine learning models. Various efforts have been made to mitigate backdoors. However, existing defenses have become increasingly complex and often require high computational resources or may also jeopardize models' utility. In this work, we show that fine-tuning, one of the most common and easy-to-adopt machine learning training operations, can effectively remove backdoors from machine learning models while maintaining high model utility. Extensive experiments over three machine learning paradigms show that fine-tuning and our newly proposed super-fine-tuning achieve strong defense performance. Furthermore, we coin a new term, namely backdoor sequela, to measure the changes in model vulnerabilities to other attacks before and after the backdoor has been removed. Empirical evaluation shows that, compared to other defense methods, super-fine-tuning leaves limited backdoor sequela. We hope our results can help machine learning model owners better protect their models from backdoor threats. Also, it calls for the design of more advanced attacks in order to comprehensively assess machine learning models' backdoor vulnerabilities.