arXiv reaDer
敵対的例の因果的特徴の解明と、敵対的操作変数回帰によるロバストなネットワークへの因果接種
Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression
敵対的例の起源は、研究分野では依然として解明されておらず、包括的な調査にもかかわらず、さまざまな観点から議論を引き起こしています。この論文では、敵対的に訓練されたネットワークの予期しない脆弱性を因果関係の観点から掘り下げる方法、すなわち敵対的操作変数 (IV) 回帰を提案します。それを展開することで、未知の交絡因子から切り離された公平な環境下での敵対的予測の因果関係を推定します。私たちのアプローチは、カジュアルな特徴推定量 (仮説モデル) と最悪の場合の反事実 (テスト関数) との間のゼロサム最適化ゲームを活用して、因果的特徴を見つけることによって、敵対的な例に固有の因果的特徴を分かりやすく説明することを目的としています。広範な分析を通じて、推定された因果的特徴が敵対的ロバスト性の正しい予測に大きく関連しており、反事実が正しい予測から大きく逸脱する極端な特徴を示すことを実証します。さらに、敵対的ロバスト性を向上させるために、防御ネットワークに CAusal FEatures (CAFE) を効果的に接種する方法を紹介します。
The origin of adversarial examples is still inexplicable in research fields, and it arouses arguments from various viewpoints, albeit comprehensive investigations. In this paper, we propose a way of delving into the unexpected vulnerability in adversarially trained networks from a causal perspective, namely adversarial instrumental variable (IV) regression. By deploying it, we estimate the causal relation of adversarial prediction under an unbiased environment dissociated from unknown confounders. Our approach aims to demystify inherent causal features on adversarial examples by leveraging a zero-sum optimization game between a casual feature estimator (i.e., hypothesis model) and worst-case counterfactuals (i.e., test function) disturbing to find causal features. Through extensive analyses, we demonstrate that the estimated causal features are highly related to the correct prediction for adversarial robustness, and the counterfactuals exhibit extreme features significantly deviating from the correct prediction. In addition, we present how to effectively inoculate CAusal FEatures (CAFE) into defense networks for improving adversarial robustness.
updated: Thu Mar 02 2023 08:18:22 GMT+0000 (UTC)
published: Thu Mar 02 2023 08:18:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト