arXiv reaDer
敵対的な訓練は両刃の剣かもしれません
Adversarial training may be a double-edged sword
敵対的訓練は、ホワイトボックス攻撃に対する画像分類器の堅牢性を向上させるための効果的なアプローチとして示されています。ただし、ブラックボックス攻撃に対するその有効性はより微妙です。この作業では、深いネットワークの決定境界での敵対的訓練のいくつかの幾何学的な結果が、特定のタイプのブラックボックス攻撃に優位性を与えることを示します。特に、ロバストネスゲインと呼ばれるメトリックを定義して、敵対的トレーニングがホワイトボックスシナリオのロバスト性を劇的に改善する効果的な方法である一方で、より現実的な意思決定ベースのブラックボックスに対してそのような優れたロバストネスゲインを提供しない可能性があることを示します。攻撃。さらに、最小の摂動ホワイトボックス攻撃でさえ、通常のものと比較して、敵対的に訓練されたニューラルネットワークに対してより速く収束できることを示します。
Adversarial training has been shown as an effective approach to improve the robustness of image classifiers against white-box attacks. However, its effectiveness against black-box attacks is more nuanced. In this work, we demonstrate that some geometric consequences of adversarial training on the decision boundary of deep networks give an edge to certain types of black-box attacks. In particular, we define a metric called robustness gain to show that while adversarial training is an effective method to dramatically improve the robustness in white-box scenarios, it may not provide such a good robustness gain against the more realistic decision-based black-box attacks. Moreover, we show that even the minimal perturbation white-box attacks can converge faster against adversarially-trained neural networks compared to the regular ones.
updated: Sat Jul 24 2021 19:09:16 GMT+0000 (UTC)
published: Sat Jul 24 2021 19:09:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト