arXiv reaDer
制御された解毒によるニューラルネットワークの深部特徴空間トロイの木馬攻撃
Deep Feature Space Trojan Attack of Neural Networks by Controlled Detoxification
トロイの木馬(バックドア)攻撃は、ディープニューラルネットワークに対する敵対的攻撃の一形態であり、攻撃者は、悪意のあるデータでトレーニング/再トレーニングされたモデルを被害者に提供します。通常の入力にトリガーと呼ばれる特定のパターンがスタンプされると、バックドアがアクティブになり、誤分類が発生する可能性があります。多くの既存のトロイの木馬攻撃のトリガーは、入力スペースのパッチ/オブジェクト(単色のポリゴンなど)またはInstagramフィルターなどの単純な入力変換です。これらの単純なトリガーは、最近のバックドア検出アルゴリズムの影響を受けやすくなっています。有効性、ステルス性、制御性、堅牢性、および深部機能への依存という5つの特性を備えた新しい深部機能スペーストロイの木馬攻撃を提案します。これらのプロパティを実証し、攻撃が最先端の防御を回避できることを示すために、ImageNetを含むさまざまなデータセットの9つの画像分類子で広範な実験を実施します。
Trojan (backdoor) attack is a form of adversarial attack on deep neural networks where the attacker provides victims with a model trained/retrained on malicious data. The backdoor can be activated when a normal input is stamped with a certain pattern called trigger, causing misclassification. Many existing trojan attacks have their triggers being input space patches/objects (e.g., a polygon with solid color) or simple input transformations such as Instagram filters. These simple triggers are susceptible to recent backdoor detection algorithms. We propose a novel deep feature space trojan attack with five characteristics: effectiveness, stealthiness, controllability, robustness and reliance on deep features. We conduct extensive experiments on 9 image classifiers on various datasets including ImageNet to demonstrate these properties and show that our attack can evade state-of-the-art defense.
updated: Mon Jan 04 2021 04:10:38 GMT+0000 (UTC)
published: Mon Dec 21 2020 09:46:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト