arXiv reaDer
AT-GAN:制約のない敵の例のための敵ジェネレータモデル
AT-GAN: An Adversarial Generator Model for Non-constrained Adversarial Examples
 敵対的な機械学習の急速な発展にもかかわらず、ほとんどの敵対的な攻撃と防衛の研究は、主に入力画像によって制約される摂動ベースの敵対的な例に焦点を合わせています。既存の作品と比較して、入力に対する制約なしにゼロから完全に生成される、制約のない敵対的な例を提案します。摂動ベースの攻撃や、入力ノイズによってまだ制約されているいわゆる無制限の敵対攻撃とは異なり、敵対例の分布を学習して、制約のない意味的に意味のある敵対例を生成することを目指しています。この精神に従って、AT-GAN(Generative Adversarial Netでの敵対的転送)と呼ばれる新しい攻撃フレームワークを提案します。具体的には、まず正常なGANモデルを開発して良性データの分布を学習し、次に事前学習済みのGANモデルを転送してターゲットモデルの敵対的な例の分布を推定します。このようにして、AT-GANは実際のデータの分布に非常に近い敵の例の分布を学習できます。私たちの知る限り、これは、任意の入力ノイズから直接敵の例を生成できる敵対ジェネレーターモデルを構築する最初の作業です。広範な実験と視覚化により、提案されたAT-GANは人間の知覚により現実的な多様な敵対的な例を非常に効率的に生成できることが示されています。さらに、AT-GANは、ホワイトボックス攻撃設定の下で敵対的に訓練されたモデルに対してより高い攻撃成功率をもたらし、ブラックボックスモデルに対して中程度の転送可能性を示します。
Despite the rapid development of adversarial machine learning, most adversarial attack and defense researches mainly focus on the perturbation-based adversarial examples, which is constrained by the input images. In comparison with existing works, we propose non-constrained adversarial examples, which are generated entirely from scratch without any constraint on the input. Unlike perturbation-based attacks, or the so-called unrestricted adversarial attack which is still constrained by the input noise, we aim to learn the distribution of adversarial examples to generate non-constrained but semantically meaningful adversarial examples. Following this spirit, we propose a novel attack framework called AT-GAN (Adversarial Transfer on Generative Adversarial Net). Specifically, we first develop a normal GAN model to learn the distribution of benign data, and then transfer the pre-trained GAN model to estimate the distribution of adversarial examples for the target model. In this way, AT-GAN can learn the distribution of adversarial examples that is very close to the distribution of real data. To our knowledge, this is the first work of building an adversarial generator model that could produce adversarial examples directly from any input noise. Extensive experiments and visualizations show that the proposed AT-GAN can very efficiently generate diverse adversarial examples that are more realistic to human perception. In addition, AT-GAN yields higher attack success rates against adversarially trained models under white-box attack setting and exhibits moderate transferability against black-box models.
updated: Fri Feb 07 2020 18:11:58 GMT+0000 (UTC)
published: Tue Apr 16 2019 16:26:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト