この論文では、SingleADV と呼ばれる新しい単一クラスのターゲット固有の敵対的攻撃を紹介します。 SingleADV の目標は、ターゲット モデルをだましてオブジェクトの特定のカテゴリとターゲット カテゴリを混同させる普遍的な摂動を生成すると同時に、関連性が高く正確な解釈を保証することです。普遍的摂動は、ターゲットと非ターゲットのカテゴリにおける分類子とインタープリターのコストの両方を考慮するように設計された敵対的損失を最小限に抑えることによって、確率的かつ反復的に最適化されます。この最適化フレームワークでは、第一モーメントと第二モーメントの推定によって支配され、望ましい損失曲面により、敵対的サンプルの高い信頼性と解釈スコアが促進されます。 SingleADV は、他のカテゴリからのサンプルの意図しない誤分類を回避することで、ホワイト ボックス シナリオとブラック ボックス シナリオの両方で、解釈可能な深層学習システムに対するより効果的な標的型攻撃を可能にします。 SingleADV の有効性を評価するために、4 つの異なるモデル アーキテクチャ (ResNet-50、VGG-16、DenseNet-169、および Inception-V3) と 3 つの解釈モデル (CAM、Grad、および MASK) を組み合わせた実験を実施します。広範な経験的評価を通じて、SingleADV がさまざまな条件や設定の下でターゲットの深層学習モデルとそれに関連するインタプリタを効果的に欺くことを実証します。私たちの実験結果は、SingleADV のパフォーマンスが効果的であることを示しており、欺瞞的な敵対的サンプルの生成における平均欺瞞率は 0.74、敵対的信頼レベルは 0.78 でした。さらに、転送ベースの学習アプローチや既存の前処理防御など、SingleADV に対するいくつかの対抗策について説明します。
In this paper, we present a novel Single-class target-specific Adversarial attack called SingleADV. The goal of SingleADV is to generate a universal perturbation that deceives the target model into confusing a specific category of objects with a target category while ensuring highly relevant and accurate interpretations. The universal perturbation is stochastically and iteratively optimized by minimizing the adversarial loss that is designed to consider both the classifier and interpreter costs in targeted and non-targeted categories. In this optimization framework, ruled by the first- and second-moment estimations, the desired loss surface promotes high confidence and interpretation score of adversarial samples. By avoiding unintended misclassification of samples from other categories, SingleADV enables more effective targeted attacks on interpretable deep learning systems in both white-box and black-box scenarios. To evaluate the effectiveness of SingleADV, we conduct experiments using four different model architectures (ResNet-50, VGG-16, DenseNet-169, and Inception-V3) coupled with three interpretation models (CAM, Grad, and MASK). Through extensive empirical evaluation, we demonstrate that SingleADV effectively deceives the target deep learning models and their associated interpreters under various conditions and settings. Our experimental results show that the performance of SingleADV is effective, with an average fooling ratio of 0.74 and an adversarial confidence level of 0.78 in generating deceptive adversarial samples. Furthermore, we discuss several countermeasures against SingleADV, including a transfer-based learning approach and existing preprocessing defenses.