堅牢な UNet デノイザーによる認定ゼロ次ブラック ボックス防御
Certified Zeroth-order Black-Box Defense with Robust UNet Denoiser
敵対的摂動に対する認定された防御方法は、最近、ゼロ次 (ZO) パースペクティブを使用してブラック ボックス設定で調査されました。ただし、これらの方法は、デノイザーの設計が効果的でないため、高次元データセットでのパフォーマンスが低く、モデル分散が高く、ZO 手法の利用が制限されます。この目的のために、モデルクエリのみを使用して、ブラックボックス設定で攻撃された画像から敵対的摂動を除去するための認定された ZO 前処理手法を提案します。高次元データセットでトレーニングされたブラック ボックス モデルのロバスト性を保証する、ロバストな UNet デノイザー (RDUNet) を提案します。 RDUNet をブラック ボックス モデルの先頭に追加して、ブラック ボックス防御を確保することにより、新しいブラック ボックス ノイズ除去平滑化 (DS) 防御メカニズム ZO-RUDS を提案します。さらに、RDUNet の後にオートエンコーダー (AE) がブラック ボックス モデルの先頭に追加された ZO-AE-RUDS を提案します。 4 つの分類データセット、CIFAR-10、CIFAR-10、Tiny Imagenet、STL-10、および画像再構成タスク用の MNIST データセットで広範な実験を行います。私たちが提案した防御方法 ZO-RUDS と ZO-AE-RUDS は、低次元 (CIFAR-10) では 35% と 9% の大きなマージンで、高次元 (STL) では 20.61% と 23.51% のマージンで SOTA を打ち負かしました。 -10) データセット、それぞれ。
Certified defense methods against adversarial perturbations have been recently investigated in the black-box setting with a zeroth-order (ZO) perspective. However, these methods suffer from high model variance with low performance on high-dimensional datasets due to the ineffective design of the denoiser and are limited in their utilization of ZO techniques. To this end, we propose a certified ZO preprocessing technique for removing adversarial perturbations from the attacked image in the black-box setting using only model queries. We propose a robust UNet denoiser (RDUNet) that ensures the robustness of black-box models trained on high-dimensional datasets. We propose a novel black-box denoised smoothing (DS) defense mechanism, ZO-RUDS, by prepending our RDUNet to the black-box model, ensuring black-box defense. We further propose ZO-AE-RUDS in which RDUNet followed by autoencoder (AE) is prepended to the black-box model. We perform extensive experiments on four classification datasets, CIFAR-10, CIFAR-10, Tiny Imagenet, STL-10, and the MNIST dataset for image reconstruction tasks. Our proposed defense methods ZO-RUDS and ZO-AE-RUDS beat SOTA with a huge margin of 35% and 9%, for low dimensional (CIFAR-10) and with a margin of 20.61% and 23.51% for high-dimensional (STL-10) datasets, respectively.
updated: Sat Jul 06 2024 08:51:50 GMT+0000 (UTC)
published: Thu Apr 13 2023 11:57:06 GMT+0000 (UTC)
