最近の研究によると、ニューラルネットワークはトロイの木馬攻撃に対して脆弱であり、ネットワークは、特定の潜在的に悪意のある方法で入力の特別に細工されたトリガーパターンに応答するようにトレーニングされています。この論文では、推論時にニューラルネットワークのトロイの木馬トリガーを検出するための新しいオンラインアプローチであるMISAを提案します。私たちのアプローチは、誤帰属と呼ばれる新しい概念に基づいています。これは、機能空間でのトロイの木馬のアクティブ化の異常な兆候を捉えています。入力画像と対応する出力予測が与えられると、私たちのアルゴリズムは最初にさまざまな特徴に対するモデルの帰属を計算します。次に、これらの属性を統計的に分析して、トロイの木馬トリガーの存在を確認します。一連のベンチマーク全体で、私たちの方法が、既知の防御策がない最近のいくつかのトリガーパターンを含む、さまざまなトリガーパターンのトロイの木馬トリガーを効果的に検出できることを示しています。私たちの方法は、トリガーパターンを想定せずにトロイの木馬トリガーを含む画像を検出するために96%のAUCを達成します。
Recent studies have shown that neural networks are vulnerable to Trojan attacks, where a network is trained to respond to specially crafted trigger patterns in the inputs in specific and potentially malicious ways. This paper proposes MISA, a new online approach to detect Trojan triggers for neural networks at inference time. Our approach is based on a novel notion called misattributions, which captures the anomalous manifestation of a Trojan activation in the feature space. Given an input image and the corresponding output prediction, our algorithm first computes the model's attribution on different features. It then statistically analyzes these attributions to ascertain the presence of a Trojan trigger. Across a set of benchmarks, we show that our method can effectively detect Trojan triggers for a wide variety of trigger patterns, including several recent ones for which there are no known defenses. Our method achieves 96% AUC for detecting images that include a Trojan trigger without any assumptions on the trigger pattern.