arXiv reaDer
もつれのない表現による自己教師ありの敵対的例の検出
Self-Supervised Adversarial Example Detection by Disentangled Representation
ディープ ラーニング モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには感知できない敵対的な例に対して脆弱であることが知られています。オートエンコーダーは、無害な例のみでトレーニングされた場合、敵対的な例がより大きな再構成エラーをもたらすという仮定に基づいて、(自己教師あり) 敵対的検出に広く使用されてきました。ただし、そのトレーニングには敵対的な例がなく、オートエンコーダーの一般化能力が強すぎるため、この仮定は実際には常に当てはまるとは限りません。この問題を軽減するために、オートエンコーダー構造の下でラベル/セマンティック機能のもつれを解いた敵対的な例を検出する方法を探ります。具体的には、Disentangled Representation-based Reconstruction (DRR) を提案します。 DRRでは、正しくペアになったラベル/セマンティック機能と誤ってペアになったラベル/セマンティック機能の両方でオートエンコーダーをトレーニングして、良性と反例を再構築します。これは、敵対的な例の動作を模倣し、オートエンコーダーの不必要な一般化機能を減らすことができます。さまざまな敵対的攻撃とさまざまな被害者モデルの下で、私たちの方法を最先端の自己監視型検出方法と比較し、さまざまな指標 (ROC 曲線の下の領域、真陽性率、真陰性率) でより優れたパフォーマンスを示します。 ) ほとんどの攻撃設定。 DRR は最初は視覚タスクのみを対象に設計されていますが、自然言語タスクにも簡単に拡張できることを示しています。特に、他のオートエンコーダーベースの検出器とは異なり、私たちの方法は適応敵対者への抵抗を提供できます。
Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction errors. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore how to detect adversarial examples with disentangled label/semantic features under the autoencoder structure. Specifically, we propose Disentangled Representation-based Reconstruction (DRR). In DRR, we train an autoencoder over both correctly paired label/semantic features and incorrectly paired label/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models, and it exhibits better performance in various metrics (area under the ROC curve, true positive rate, and true negative rate) for most attack settings. Though DRR is initially designed for visual tasks only, we demonstrate that it can be easily extended for natural language tasks as well. Notably, different from other autoencoder-based detectors, our method can provide resistance to the adaptive adversary.
updated: Sun Aug 28 2022 12:03:47 GMT+0000 (UTC)
published: Sat May 08 2021 12:48:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト