arXiv reaDer
インフルエンスグラフを介してバックドア攻撃から防御するための一般的なフレームワーク
A General Framework for Defending Against Backdoor Attacks via Influence Graph
この作業では、攻撃トリガーは通常特定のタイプの攻撃パターンに従うため、中毒のトレーニング例はトレーニング中に相互に大きな影響を与えるという事実に触発されて、バックドア攻撃から防御するための新しい一般的なフレームワークを提案します。個々のトレーニングポイントと関連するペアワイズ影響をそれぞれ表すノードとエッジで構成される影響グラフの概念を紹介します。トレーニングポイントのペア間の影響は、影響関数koh2017understandingで近似された、あるトレーニングポイントの削除が別のトレーニングポイントの予測に与える影響を表します。悪意のあるトレーニングポイントは、特定のサイズの対象となる最大平均サブグラフを見つけることによって抽出されます。コンピュータビジョンと自然言語処理タスクに関する広範な実験は、提案されたフレームワークの有効性と一般性を示しています。
In this work, we propose a new and general framework to defend against backdoor attacks, inspired by the fact that attack triggers usually follow a specific type of attacking pattern, and therefore, poisoned training examples have greater impacts on each other during training. We introduce the notion of the influence graph, which consists of nodes and edges respectively representative of individual training points and associated pair-wise influences. The influence between a pair of training points represents the impact of removing one training point on the prediction of another, approximated by the influence function koh2017understanding. Malicious training points are extracted by finding the maximum average sub-graph subject to a particular size. Extensive experiments on computer vision and natural language processing tasks demonstrate the effectiveness and generality of the proposed framework.
updated: Mon Nov 29 2021 02:55:42 GMT+0000 (UTC)
published: Mon Nov 29 2021 02:55:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト