事前トレーニング済みモデル(PTM)は、さまざまなダウンストリームタスクで広く使用されています。 PTMのパラメータはインターネット上で配布されており、バックドア攻撃を受ける可能性があります。この作業では、PTMの普遍的な脆弱性を示します。ここでは、微調整されたPTMが、任意のダウンストリームタスクでのバックドア攻撃によって簡単に制御される可能性があります。具体的には、攻撃者は単純な事前トレーニングタスクを追加できます。これにより、トリガーインスタンスの出力表現が事前定義されたベクトル、つまりニューロンレベルのバックドア攻撃(NeuBA)に制限されます。微調整中にバックドア機能が排除されない場合、トリガーにより、微調整されたモデルが事前定義されたベクトルによって固定ラベルを予測することができます。自然言語処理(NLP)とコンピュータービジョン(CV)の両方の実験で、NeuBAがダウンストリームタスクの知識がなくてもトリガーインスタンスの予測を完全に制御することを示します。最後に、NeuBAにいくつかの防御方法を適用し、モデルの剪定がバックドアニューロンを除外することでNeuBAに抵抗する有望な方向であることを発見しました。私たちの調査結果は、PTMの幅広い使用に対して赤い警告を発します。ソースコードとモデルはhttps://github.com/thunlp/NeuBAで入手できます。
Pre-trained models (PTMs) have been widely used in various downstream tasks. The parameters of PTMs are distributed on the Internet and may suffer backdoor attacks. In this work, we demonstrate the universal vulnerability of PTMs, where fine-tuned PTMs can be easily controlled by backdoor attacks in arbitrary downstream tasks. Specifically, attackers can add a simple pre-training task, which restricts the output representations of trigger instances to pre-defined vectors, namely neuron-level backdoor attack (NeuBA). If the backdoor functionality is not eliminated during fine-tuning, the triggers can make the fine-tuned model predict fixed labels by pre-defined vectors. In the experiments of both natural language processing (NLP) and computer vision (CV), we show that NeuBA absolutely controls the predictions for trigger instances without any knowledge of downstream tasks. Finally, we apply several defense methods to NeuBA and find that model pruning is a promising direction to resist NeuBA by excluding backdoored neurons. Our findings sound a red alarm for the wide use of PTMs. Our source code and models are available at https://github.com/thunlp/NeuBA.