高次元データマニホールドのモデリングでの大成功にもかかわらず、ディープニューラルネットワークは敵対攻撃の脅威に苦しんでいます-基礎となるモデルのパフォーマンスの低下につながる慎重な摂動によって得られた知覚的に有効な入力のようなサンプルの存在。既存の防御メカニズムに関する主な懸念には、さまざまな攻撃、モデル、および長い推論時間にわたる非一般化が含まれます。本論文では、正則化された潜在空間に基づく生成モデルの表現力を活用した一般化された防御メカニズムを提案します。分類子や敵にアクセスできない敵対的なフィルターを設計します。これにより、任意の分類子と連携して使用できるようになります。基本的な考え方は、リプシッツ制約マッピングをデータ多様体から学習し、敵対的摂動を量子化された潜在空間に組み込み、それを真のデータ多様体に再マッピングすることです。具体的には、変分推論を使用して実現される、正則化および量子化された生成潜在空間の摂動を介して、暗黙的にデータ多様体とその摂動を同時に自動エンコードします。ほぼリアルタイムでありながら、複数の攻撃タイプ(ブラックボックスとホワイトボックス)および方法に対する回復力を提供する上で、提案された定式化の有効性を示します。私たちの実験は、提案された方法がいくつかのケースで最先端の技術を上回ることを示しています。
Despite their tremendous success in modelling high-dimensional data manifolds, deep neural networks suffer from the threat of adversarial attacks - Existence of perceptually valid input-like samples obtained through careful perturbation that lead to degradation in the performance of the underlying model. Major concerns with existing defense mechanisms include non-generalizability across different attacks, models and large inference time. In this paper, we propose a generalized defense mechanism capitalizing on the expressive power of regularized latent space based generative models. We design an adversarial filter, devoid of access to classifier and adversaries, which makes it usable in tandem with any classifier. The basic idea is to learn a Lipschitz constrained mapping from the data manifold, incorporating adversarial perturbations, to a quantized latent space and re-map it to the true data manifold. Specifically, we simultaneously auto-encode the data manifold and its perturbations implicitly through the perturbations of the regularized and quantized generative latent space, realized using variational inference. We demonstrate the efficacy of the proposed formulation in providing resilience against multiple attack types (black and white box) and methods, while being almost real-time. Our experiments show that the proposed method surpasses the state-of-the-art techniques in several cases.