arXiv reaDer
敵対的摂動のクロスドメイン伝達性
Cross-Domain Transferability of Adversarial Perturbations
  敵対者の例は、ディープニューラルネットワーク(DNN)の盲点を明らかにし、セキュリティクリティカルなアプリケーションの主要な懸念を表しています。敵対的な例の転送可能性により、ブラックボックス設定で実世界の攻撃が可能になり、攻撃者はモデルの内部パラメーターにアクセスすることが禁じられます。インスタンス固有の摂動を学習するか、インスタンスに依存しない摂動を学習するかにかかわらず、ほとんどの敵対的生成方法の基本的な前提は、元のドメイン固有のデータ分布への直接的または間接的な依存です。この作業では、初めて、ドメイン不変の敵の存在を実証し、それにより異なるデータセットとモデルの間で共通の敵の空間を示します。この目的のために、完全に異なるドメインでトレーニングされたネットワークを誤解させる敵対パターンを作成する、高度に転送可能な攻撃を開始できるフレームワークを提案します。たとえば、絵画、漫画、または医療画像で学習した敵対関数は、ImageNetサンプルを正常に動揺させて分類器を欺くことができ、成功率は$ \ sim $ 99 \%($ \ ell _ {\ infty \ le 10 $)に達します。提案されている敵対的機能の中核は、ドメイン不変摂動を可能にする相対論的監視信号を使用して訓練される生成ネットワークです。私たちのアプローチは、ホワイトボックスとブラックボックスの両方のシナリオで、だまされやすいレートの新しい最先端を設定します。さらに、インスタンスに依存しない摂動関数であるにもかかわらず、この攻撃は、従来の非常に強力なインスタンス固有の攻撃方法よりも優れています。
Adversarial examples reveal the blind spots of deep neural networks (DNNs) and represent a major concern for security-critical applications. The transferability of adversarial examples makes real-world attacks possible in black-box settings, where the attacker is forbidden to access the internal parameters of the model. The underlying assumption in most adversary generation methods, whether learning an instance-specific or an instance-agnostic perturbation, is the direct or indirect reliance on the original domain-specific data distribution. In this work, for the first time, we demonstrate the existence of domain-invariant adversaries, thereby showing common adversarial space among different datasets and models. To this end, we propose a framework capable of launching highly transferable attacks that crafts adversarial patterns to mislead networks trained on wholly different domains. For instance, an adversarial function learned on Paintings, Cartoons or Medical images can successfully perturb ImageNet samples to fool the classifier, with success rates as high as $\sim$99\% ($\ell_{\infty \le 10$). The core of our proposed adversarial function is a generative network that is trained using a relativistic supervisory signal that enables domain-invariant perturbations. Our approach sets the new state-of-the-art for fooling rates, both under the white-box and black-box scenarios. Furthermore, despite being an instance-agnostic perturbation function, our attack outperforms the conventionally much stronger instance-specific attack methods.
updated: Mon Oct 14 2019 19:13:37 GMT+0000 (UTC)
published: Tue May 28 2019 11:00:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト