深層学習モデルに対する敵対的攻撃は、近年ますます注目を集めています。この分野での作業は、攻撃者が標的のモデルの内部パラメーターにアクセスできる、いわゆるホワイトボックス攻撃である勾配ベースの手法に主に焦点を当てています。このような仮定は、通常、現実の世界では非現実的です。さらに一部の攻撃では、ピクセル空間全体を使用して特定のモデルを欺きますが、これは実用的でも物理的でもありません (つまり、実世界)。それどころか、ここでは、事前訓練された敵対的生成ネットワーク (GAN) の学習済み画像マニホールドを使用して、オブジェクト検出器用の自然主義的な物理的敵対的パッチを生成する勾配のない方法を提案します。提案した方法がデジタル的にも物理的にも機能することを示します。
Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called white-box attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. We show that our proposed method works both digitally and physically.