Essential Features: Content-Adaptive Pixel Discretization to Improve Model Robustness to Adaptive Adversarial Attacks
ピクセルの離散化などの前処理の防御は、その単純さのために敵対的な攻撃を取り除くのに魅力的です。ただし、MNISTなどの単純なデータセットを除いて、効果がないことが示されています。データセット全体に固定コードブックを使用すると、画像表現とコードワードの分離可能性のバランスをとる能力が制限されるため、既存の離散化アプローチは失敗したと仮定します。 Essential Featuresと呼ばれる画像ごとの適応前処理防御を提案します。これは、最初に適応ブラーを適用して摂動されたピクセル値を元の値に戻し、次に画像を画像適応コードブックに離散化して色空間を縮小します。したがって、Essential Featuresは、攻撃者にその効果が前処理を生き残るために局所的および色的に大きな領域を混乱させることによって攻撃スペースを制限します。適応型攻撃に対して、私たちのアプローチは、より高解像度のデータセットでのL_2およびL_∞の堅牢性を向上させることがわかります。
Preprocessing defenses such as pixel discretization are appealing to remove adversarial attacks due to their simplicity. However, they have been shown to be ineffective except on simple datasets such as MNIST. We hypothesize that existing discretization approaches failed because using a fixed codebook for the entire dataset limits their ability to balance image representation and codeword separability. We propose a per-image adaptive preprocessing defense called Essential Features, which first applies adaptive blurring to push perturbed pixel values back to their original value and then discretizes the image to an image-adaptive codebook to reduce the color space. Essential Features thus constrains the attack space by forcing the adversary to perturb large regions both locally and color-wise for its effects to survive the preprocessing. Against adaptive attacks, we find that our approach increases the L_2 and L_∞ robustness on higher resolution datasets.
updated: Mon Mar 28 2022 02:54:04 GMT+0000 (UTC)
published: Thu Dec 03 2020 04:40:51 GMT+0000 (UTC)
