Essential Features: Content-Adaptive Pixel Discretization to Improve Model Robustness to Adaptive Adversarial Attacks
敵対的な摂動の影響を取り除くために、ピクセル離散化などの前処理防御はその単純さのために魅力的ですが、MNISTなどの単純なデータセットを除いてこれまでのところ効果がないことが示されているため、ピクセル離散化アプローチは失敗する運命にあると考えられています。防御テクニック。この論文では、ピクセル離散化アプローチを再検討します。既存のアプローチが失敗した理由は、データセット全体に固定コードブックを使用したためであると仮定します。特に、画像が敵対的な摂動の影響を受けやすくなり、離散化後に精度が大幅に低下する状況につながる可能性があることがわかりました。画像ごとのコンテンツと脅威モデルに基づく適応コードブックを使用する、EssentialFeaturesと呼ばれる新しい画像前処理技術を提案します。 Essential Featuresは、各画像の分離可能なカラークラスターのセットを適応的に選択して、元の画像の関連する機能を維持しながら色空間を縮小し、分離可能性と色の表現の両方を最大化します。さらに、選択したカラークラスターに影響を与える敵の能力を制限するために、Essential Featuresは、元のエッジ情報を破壊することなくピクセルを元の値に近づける適応ブラーとの空間相関を利用します。いくつかの適応攻撃を設計し、CIFAR-10、GTSRB、RESISC45、ImageNetなどのいくつかの挑戦的なデータセットに対するL_∞およびL_2有界攻撃に関する以前のベースラインよりもアプローチが堅牢であることを発見しました。
To remove the effects of adversarial perturbations, preprocessing defenses such as pixel discretization are appealing due to their simplicity but have so far been shown to be ineffective except on simple datasets such as MNIST, leading to the belief that pixel discretization approaches are doomed to failure as a defense technique. This paper revisits the pixel discretization approaches. We hypothesize that the reason why existing approaches have failed is that they have used a fixed codebook for the entire dataset. In particular, we find that can lead to situations where images become more susceptible to adversarial perturbations and also suffer significant loss of accuracy after discretization. We propose a novel image preprocessing technique called Essential Features that uses an adaptive codebook that is based on per-image content and threat model. Essential Features adaptively selects a separable set of color clusters for each image to reduce the color space while preserving the pertinent features of the original image, maximizing both separability and representation of colors. Additionally, to limit the adversary's ability to influence the chosen color clusters, Essential Features takes advantage of spatial correlation with an adaptive blur that moves pixels closer to their original value without destroying original edge information. We design several adaptive attacks and find that our approach is more robust than previous baselines on L_∞ and L_2 bounded attacks for several challenging datasets including CIFAR-10, GTSRB, RESISC45, and ImageNet.
updated: Wed Aug 04 2021 00:22:18 GMT+0000 (UTC)
published: Thu Dec 03 2020 04:40:51 GMT+0000 (UTC)
