arXiv reaDer
敵対的な例における攻撃固有のシグネチャの識別
Identification of Attack-Specific Signatures in Adversarial Examples
敵対的攻撃の文献には、ニューラルネットワークで病理学的な振る舞いを生み出す摂動を作成するための無数のアルゴリズムが含まれています。多くの場合、複数のアルゴリズムが同じタスクを対象とし、同じ制約を適用することさえあります。この作業では、さまざまな攻撃アルゴリズムが、その有効性だけでなく、被害者に質的に影響を与える方法も異なる敵対的な例を生成することを示します。まず、敵対的な例を作成した攻撃アルゴリズムを特定できることを示します。次に、パラメータ空間の顕著性マップの最近の進歩を活用して、敵対的な攻撃アルゴリズムがネットワークのどの部分とそれらがターゲットとする画像で異なるかを視覚的および定量的に示します。私たちの調査結果は、予想される敵対的攻撃は、だましモデルでの成功率だけでなく、被害者に対するより深い下流の影響によっても比較されるべきであることを示唆しています。
The adversarial attack literature contains a myriad of algorithms for crafting perturbations which yield pathological behavior in neural networks. In many cases, multiple algorithms target the same tasks and even enforce the same constraints. In this work, we show that different attack algorithms produce adversarial examples which are distinct not only in their effectiveness but also in how they qualitatively affect their victims. We begin by demonstrating that one can determine the attack algorithm that crafted an adversarial example. Then, we leverage recent advances in parameter-space saliency maps to show, both visually and quantitatively, that adversarial attack algorithms differ in which parts of the network and image they target. Our findings suggest that prospective adversarial attacks should be compared not only via their success rates at fooling models but also via deeper downstream effects they have on victims.
updated: Wed Oct 13 2021 15:40:48 GMT+0000 (UTC)
published: Wed Oct 13 2021 15:40:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト