arXiv reaDer
制約付き勾配降下法:ニューラルネットワークに対する強力で原理的な回避攻撃
Constrained Gradient Descent: A Powerful and Principled Evasion Attack Against Neural Networks
ディープニューラルネットワークに対する新しい、より効率的なターゲットホワイトボックス攻撃を提案します。私たちの攻撃は、攻撃者の目標とよりよく一致します。(1)モデルをだまして、他のどのクラスよりも高い確率をターゲットクラスに割り当て、(2)攻撃された入力のϵ距離内にとどまります。最初に、(1)を明示的にエンコードする損失関数を示し、Auto-PGDがそれを使用してより多くの攻撃を検出することを示します。次に、(1)と(2)の両方をキャプチャする損失関数の改良を使用して、新しい攻撃方法である制約付き勾配降下(CGD)を提案します。 CGDは、アドホックな後処理技術(投影やクリッピングなど)ではなく、最適化の一環として、原則として、攻撃者の目的(誤分類と制限付きℓ_p-norm)の両方を満たすことを目指しています。 CGDは、CIFAR10(0.9--4.2%)およびImageNet(8.6--13.6%)で、最新の攻撃よりも成功している一方で、消費時間は短い(11.4--18.8%)ことを示しています。統計的検定は、さまざまなデータセットとϵの値に対する主要な防御に対して、私たちの攻撃が他の攻撃よりも優れていることを確認しています。
We propose new, more efficient targeted white-box attacks against deep neural networks. Our attacks better align with the attacker's goal: (1) tricking a model to assign higher probability to the target class than to any other class, while (2) staying within an ϵ-distance of the attacked input. First, we demonstrate a loss function that explicitly encodes (1) and show that Auto-PGD finds more attacks with it. Second, we propose a new attack method, Constrained Gradient Descent (CGD), using a refinement of our loss function that captures both (1) and (2). CGD seeks to satisfy both attacker objectives -- misclassification and bounded ℓ_p-norm -- in a principled manner, as part of the optimization, instead of via ad hoc post-processing techniques (e.g., projection or clipping). We show that CGD is more successful on CIFAR10 (0.9--4.2%) and ImageNet (8.6--13.6%) than state-of-the-art attacks while consuming less time (11.4--18.8%). Statistical tests confirm that our attack outperforms others against leading defenses on different datasets and values of ϵ.
updated: Tue Jun 21 2022 02:56:06 GMT+0000 (UTC)
published: Tue Dec 28 2021 17:36:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト