arXiv reaDer
アクティベーションの最適化を使用したトロイの木馬モデルの検出
Trojan Model Detection Using Activation Optimization
データが利用できないかサイズが大きいこと、機械学習モデルのトレーニングにかかる​​計算コストと人件費が高いため、可能な限りオープンソースの事前トレーニング済みモデルに依存するのが一般的です。ただし、この方法にはセキュリティの観点から若干の懸念があります。事前トレーニングされたモデルは、トロイの木馬攻撃に感染する可能性があります。トロイの木馬攻撃では、攻撃者がモデルにトリガーを埋め込み、トリガーが入力に存在する場合にモデルの動作を攻撃者が制御できるようにします。この論文では、トロイの木馬モデルを検出するための新しい方法に関する予備的な研究を紹介します。私たちの方法では、アクティベーションの最適化に基づいてモデルの署名を作成します。次に、分類子は、その署名が与えられたトロイの木馬モデルを検出するようにトレーニングされます。私たちの手法は、2 つの公開データセットで最先端のパフォーマンスを実現します。
Due to data's unavailability or large size, and the high computational and human labor costs of training machine learning models, it is a common practice to rely on open source pre-trained models whenever possible. However, this practice is worry some from the security perspective. Pre-trained models can be infected with Trojan attacks, in which the attacker embeds a trigger in the model such that the model's behavior can be controlled by the attacker when the trigger is present in the input. In this paper, we present our preliminary work on a novel method for Trojan model detection. Our method creates a signature for a model based on activation optimization. A classifier is then trained to detect a Trojan model given its signature. Our method achieves state of the art performance on two public datasets.
updated: Thu Jun 08 2023 02:17:29 GMT+0000 (UTC)
published: Thu Jun 08 2023 02:17:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト