Content-Adaptive Pixel Discretization to Improve Model Robustness
ピクセルの離散化などの前処理防御は、その単純さから敵対的攻撃を取り除くのに魅力的です。ただし、MNIST のような単純なデータセット以外では効果がないことが示されています。データセット全体に固定コードブックを使用すると、画像表現とコードワードの分離可能性のバランスをとる能力が制限されるため、既存の離散化アプローチは失敗したと仮定します。最初に、一部のデータセットの前処理防御として、適応コードブックが固定コードブックよりも強力なロバスト性保証を提供できることを正式に証明します。その洞察に基づいて、色空間を縮小するために画像を画像ごとの適応コードブックに離散化する Essential Features と呼ばれるコンテンツ適応ピクセル離散化防御を提案します。次に、コードブックを決定する前に、摂動したピクセル値を元の値に戻すために、離散化の前に適応ぼかしを適用することにより、基本機能をさらに最適化できることがわかります。適応攻撃に対して、コンテンツ適応ピクセル離散化により、以前に修正されたコードブックが失敗したことが判明した L_2 と L_infinity の両方のロバスト性の点で恩恵を受けるデータセットの範囲が拡張されることを示します。私たちの調査結果は、コンテンツ適応ピクセル離散化が、モデルを堅牢にするためのレパートリーの一部であるべきであることを示唆しています。
Preprocessing defenses such as pixel discretization are appealing to remove adversarial attacks due to their simplicity. However, they have been shown to be ineffective except on simple datasets like MNIST. We hypothesize that existing discretization approaches failed because using a fixed codebook for the entire dataset limits their ability to balance image representation and codeword separability. We first formally prove that adaptive codebooks can provide stronger robustness guarantees than fixed codebooks as a preprocessing defense on some datasets. Based on that insight, we propose a content-adaptive pixel discretization defense called Essential Features, which discretizes the image to a per-image adaptive codebook to reduce the color space. We then find that Essential Features can be further optimized by applying adaptive blurring before the discretization to push perturbed pixel values back to their original value before determining the codebook. Against adaptive attacks, we show that content-adaptive pixel discretization extends the range of datasets that benefit in terms of both L_2 and L_infinity robustness where previously fixed codebooks were found to have failed. Our findings suggest that content-adaptive pixel discretization should be part of the repertoire for making models robust.
updated: Tue Oct 11 2022 04:11:37 GMT+0000 (UTC)
published: Thu Dec 03 2020 04:40:51 GMT+0000 (UTC)
