arXiv reaDer
敵対的浄化のための事前トレーニング済みトランスフォーマー
Pre-trained transformer for adversarial purification
日常のさまざまなサービスとしてディープ ニューラル ネットワークが導入されることが増えているため、その信頼性は不可欠です。ディープ ニューラル ネットワークが脆弱で、敵対的攻撃に敏感であることは恐ろしいことです。サービスにとって最も一般的な攻撃は回避ベースです。最近の研究では通常、敵対的なトレーニングや大量のクリーン データの知識を活用することによって堅牢性が強化されています。ただし、実際には、モデルの再トレーニングと再デプロイには大量の計算予算が必要となり、オンライン サービスに大きな損失が生じます。さらに、特定の攻撃の敵対的な例が検出された場合、サービス プロバイダーは限られた敵対的な例のみを利用でき、クリーンなデータの多くはアクセスできない可能性があります。前述の問題を考慮して、我々は、少数のクリーンな例と敵対的な例という制限付きで、凍結された元のサービス モデルに対する特定の攻撃を迅速に防御する新しいシナリオである RaPiD (Rapid Plug-in Defender) を提案します。事前トレーニングされたトランスフォーマー モデルの一般化と普遍的な計算能力を動機として、私たちは新しい防御手法 CeTaD を考案しました。これは、事前トレーニングされたトランスフォーマーを防御者として考慮することの略です。特に、ワ​​ンショット敵対例の場合の CeTaD の有効性と移転可能性を評価し、CeTaD のさまざまな部分とトレーニング データの条件の影響を調査します。 CeTaD は柔軟性があり、任意の微分可能なモデルに組み込むことができ、さまざまな種類の攻撃に適しています。
With more and more deep neural networks being deployed as various daily services, their reliability is essential. It's frightening that deep neural networks are vulnerable and sensitive to adversarial attacks, the most common one of which for the services is evasion-based. Recent works usually strengthen the robustness by adversarial training or leveraging the knowledge of an amount of clean data. However, in practical terms, retraining and redeploying the model need a large computational budget, leading to heavy losses to the online service. In addition, when adversarial examples of a certain attack are detected, only limited adversarial examples are available for the service provider, while much clean data may not be accessible. Given the mentioned problems, we propose a new scenario, RaPiD (Rapid Plug-in Defender), which is to rapidly defend against a certain attack for the frozen original service model with limitations of few clean and adversarial examples. Motivated by the generalization and the universal computation ability of pre-trained transformer models, we come up with a new defender method, CeTaD, which stands for Considering Pre-trained Transformers as Defenders. In particular, we evaluate the effectiveness and the transferability of CeTaD in the case of one-shot adversarial examples and explore the impact of different parts of CeTaD as well as training data conditions. CeTaD is flexible, able to be embedded into an arbitrary differentiable model, and suitable for various types of attacks.
updated: Wed Aug 30 2023 04:53:15 GMT+0000 (UTC)
published: Sat May 27 2023 06:00:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト