arXiv reaDer
解釈可能な深層学習システムに対する微生物遺伝アルゴリズムベースのブラックボックス攻撃
Microbial Genetic Algorithm-based Black-box Attack against Interpretable Deep Learning Systems
ディープ ラーニング モデルは、ホワイト ボックス環境およびブラック ボックス環境における敵対的なサンプルの影響を受けやすくなります。これまでの研究では攻撃の成功率が高いことが示されていますが、DNN モデルと解釈モデルを組み合わせることで、特定のサンプルが良性か悪意があるかを識別できる人間の専門家が関与する場合に安心感が得られる可能性があります。ただし、ホワイトボックス環境では、解釈可能な深層学習システム (IDLS) が悪意のある操作に対して脆弱であることが示されています。ブラックボックス設定では、IDLS のコンポーネントへのアクセスが制限されるため、攻撃者がシステムをだますことがより困難になります。この研究では、IDLS に対するクエリ効率の高いスコアベースのブラック ボックス攻撃、QuScore を提案します。これは、ターゲット モデルとその結合解釈モデルの知識を必要としません。 QuScore は、効果的な微生物遺伝的アルゴリズムを採用した、転移ベースおよびスコアベースの方法に基づいています。私たちの方法は、攻撃を成功させるために必要なクエリの数を減らすように設計されており、結果としてプロセスがより効率的になります。 IDLS からのフィードバック スコアに基づいて作成された敵対的サンプルを継続的に改良することで、私たちのアプローチは探索空間を効果的にナビゲートして、システムを欺く可能性のある摂動を特定します。 ImageNet と CIFAR データセットの両方を使用して、4 つの CNN モデル (Inception、ResNet、VGG、DenseNet) と 2 つの解釈モデル (CAM、Grad) に対する攻撃の有効性を評価します。私たちの結果は、提案されたアプローチはクエリ効率が高く、95% ~ 100% に達する高い攻撃成功率と、ImageNet および CIFAR データセットにおける平均成功率 69% の転送性を備えていることを示しています。私たちの攻撃方法は、良性のサンプルに似た属性マップを備えた敵対的な例を生成します。また、私たちの攻撃はさまざまな前処理防御技術に対して耐性があり、異なる DNN モデルに簡単に転送できることも実証しました。
Deep learning models are susceptible to adversarial samples in white and black-box environments. Although previous studies have shown high attack success rates, coupling DNN models with interpretation models could offer a sense of security when a human expert is involved, who can identify whether a given sample is benign or malicious. However, in white-box environments, interpretable deep learning systems (IDLSes) have been shown to be vulnerable to malicious manipulations. In black-box settings, as access to the components of IDLSes is limited, it becomes more challenging for the adversary to fool the system. In this work, we propose a Query-efficient Score-based black-box attack against IDLSes, QuScore, which requires no knowledge of the target model and its coupled interpretation model. QuScore is based on transfer-based and score-based methods by employing an effective microbial genetic algorithm. Our method is designed to reduce the number of queries necessary to carry out successful attacks, resulting in a more efficient process. By continuously refining the adversarial samples created based on feedback scores from the IDLS, our approach effectively navigates the search space to identify perturbations that can fool the system. We evaluate the attack's effectiveness on four CNN models (Inception, ResNet, VGG, DenseNet) and two interpretation models (CAM, Grad), using both ImageNet and CIFAR datasets. Our results show that the proposed approach is query-efficient with a high attack success rate that can reach between 95% and 100% and transferability with an average success rate of 69% in the ImageNet and CIFAR datasets. Our attack method generates adversarial examples with attribution maps that resemble benign samples. We have also demonstrated that our attack is resilient against various preprocessing defense techniques and can easily be transferred to different DNN models.
updated: Thu Jul 13 2023 00:08:52 GMT+0000 (UTC)
published: Thu Jul 13 2023 00:08:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト