arXiv reaDer
敵対的な例を解析して被害者のモデル情報を明らかにすることはできますか?
Can Adversarial Examples Be Parsed to Reveal Victim Model Information?
最先端の機械学習 (ML) モデル、特にディープ ニューラル ネットワーク (DNN) の誤った予測を引き起こす可能性のある知覚できない画像摂動を生成するために、多数の敵対的攻撃方法が開発されています。敵対的攻撃に関する集中的な研究にもかかわらず、敵対的攻撃で運ばれる「アルカナ」を明らかにする努力はほとんど行われませんでした。この作業では、データ固有の敵対的インスタンスから、データに依存しない被害者モデル (VM) 情報 (つまり、敵対的攻撃を生成するために使用される ML モデルまたは DNN の特性) を推測できるかどうかを尋ねます。これを「敵対的攻撃のモデル解析」と呼びます。これは、攻撃に隠された VM 情報の「奥義」を明らかにするタスクです。 VM のモデル属性のクラス (アーキテクチャ タイプ、カーネル サイズ、アクティベーション関数、および重みのスパース性に関して) を、この VM から生成された攻撃インスタンスに正しく割り当てる、教師あり学習によるモデル解析に取り組みます。 135 の被害者モデル (5 つのアーキテクチャ タイプ、3 つのカーネル サイズ設定、3 つのアクティベーション関数タイプ、および 3 つの重みスパース比で構成) から生成された 7 つの攻撃タイプにわたる敵対的攻撃のデータセットを収集します。攻撃設定がトレーニング設定と一致している場合(つまり、分布内の一般化評価)、単純な教師ありモデル解析ネットワーク(MPN)が目に見えない敵対的攻撃から VM 属性を推測できることを示します。また、敵対的攻撃からの VM 解析の実現可能性、および解析パフォーマンスにおけるトレーニングおよび評価要因の影響を正当化するための広範な実験も提供します (たとえば、分散評価で提起された一般化の課題)。さらに、提案された MPN を使用して転送攻撃からソース VM 属性を明らかにする方法を示し、モデルの解析と攻撃の転送可能性との間の潜在的な関係を明らかにします。
Numerous adversarial attack methods have been developed to generate imperceptible image perturbations that can cause erroneous predictions of state-of-the-art machine learning (ML) models, in particular, deep neural networks (DNNs). Despite intense research on adversarial attacks, little effort was made to uncover 'arcana' carried in adversarial attacks. In this work, we ask whether it is possible to infer data-agnostic victim model (VM) information (i.e., characteristics of the ML model or DNN used to generate adversarial attacks) from data-specific adversarial instances. We call this 'model parsing of adversarial attacks' - a task to uncover 'arcana' in terms of the concealed VM information in attacks. We approach model parsing via supervised learning, which correctly assigns classes of VM's model attributes (in terms of architecture type, kernel size, activation function, and weight sparsity) to an attack instance generated from this VM. We collect a dataset of adversarial attacks across 7 attack types generated from 135 victim models (configured by 5 architecture types, 3 kernel size setups, 3 activation function types, and 3 weight sparsity ratios). We show that a simple, supervised model parsing network (MPN) is able to infer VM attributes from unseen adversarial attacks if their attack settings are consistent with the training setting (i.e., in-distribution generalization assessment). We also provide extensive experiments to justify the feasibility of VM parsing from adversarial attacks, and the influence of training and evaluation factors in the parsing performance (e.g., generalization challenge raised in out-of-distribution evaluation). We further demonstrate how the proposed MPN can be used to uncover the source VM attributes from transfer attacks, and shed light on a potential connection between model parsing and attack transferability.
updated: Wed Mar 15 2023 00:50:59 GMT+0000 (UTC)
published: Mon Mar 13 2023 21:21:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト