arXiv reaDer
トロイの木馬検出のためのトポロジカルプライアを使用したトリガーハンティング
Trigger Hunting with a Topological Prior for Trojan Detection
それらの成功と人気にもかかわらず、ディープニューラルネットワーク(DNN)は、バックドア攻撃に直面したときに脆弱です。これは、特にミッションクリティカルなアプリケーションでの幅広い採用を妨げます。このホワイトペーパーでは、トロイの木馬の検出の問題、つまり、トロイの木馬モデル(ポイズンデータでトレーニングされたモデル)の特定に取り組んでいます。一般的なアプローチの1つは、リバースエンジニアリングです。つまり、モデルの予測を操作することにより、クリーンな画像でトリガーを回復します。リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの膨大な検索スペースです。この目的のために、適切なトリガーを見つける可能性を高めるだけでなく、見つかったトリガーの品質を向上させるために、多様性やトポロジーの単純さなどの革新的な優先順位を提案します。さらに、トリガー候補の多様なセットを奨励することにより、私たちの方法は、未知のターゲットラベルがある場合に効果的に実行できます。これらの事前設定により、回復されたトリガーの品質が大幅に向上し、合成ベンチマークと公開されているTrojAIベンチマークの両方で検証されたトロイの木馬の検出精度が大幅に向上することを示します。
Despite their success and popularity, deep neural networks (DNNs) are vulnerable when facing backdoor attacks. This impedes their wider adoption, especially in mission critical applications. This paper tackles the problem of Trojan detection, namely, identifying Trojaned models -- models trained with poisoned data. One popular approach is reverse engineering, i.e., recovering the triggers on a clean image by manipulating the model's prediction. One major challenge of reverse engineering approach is the enormous search space of triggers. To this end, we propose innovative priors such as diversity and topological simplicity to not only increase the chances of finding the appropriate triggers but also improve the quality of the found triggers. Moreover, by encouraging a diverse set of trigger candidates, our method can perform effectively in cases with unknown target labels. We demonstrate that these priors can significantly improve the quality of the recovered triggers, resulting in substantially improved Trojan detection accuracy as validated on both synthetic and publicly available TrojAI benchmarks.
updated: Fri Oct 15 2021 19:47:00 GMT+0000 (UTC)
published: Fri Oct 15 2021 19:47:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト