マスク イメージ モデリング (MIM) は、自己教師あり視覚表現学習の一般的なフレームワークです。事前トレーニングと微調整のパラダイム内で、MIM フレームワークは、エンコーダーが微調整に使用されるときに破棄されるデコーダーの助けを借りて、マスクされた画像パッチを再構築することでエンコーダーをトレーニングします。クリーンな画像での最先端のパフォーマンスにもかかわらず、MIM モデルは敵対的攻撃に対して脆弱であり、実際のアプリケーションを制限しており、この問題に焦点を当てた研究はほとんどありません。このホワイト ペーパーでは、事前テキスト タスクとしてノイズ除去を使用する MIM の一種であるノイジー イメージ モデリング (NIM) が、優れた事前トレーニング済みの視覚的特徴だけでなく、ダウンストリーム モデルに効果的な敵対的防御も提供することを発見しました。精度と堅牢性のトレードオフを改善するために、再構成の難しさを制御するハイパーパラメーターをグローバルに設定するのではなく、ランダムな分布からサンプリングし、ノイズ除去された画像でダウンストリーム ネットワークを微調整することをさらに提案します。実験結果は、事前トレーニング済みのノイズ除去オートエンコーダーが、微調整されたモデルのクリーンな精度を損なうことなく、敵対的な画像でトレーニングすることなく、さまざまなホワイトボックス、グレーボックス、およびブラックボックス攻撃に対して効果的であることを示しています。ソースコードとモデルが利用可能になります。
Masked Image Modeling (MIM) has been a prevailing framework for self-supervised visual representation learning. Within the pretraining-finetuning paradigm, the MIM framework trains an encoder by reconstructing masked image patches with the help of a decoder which would be abandoned when the encoder is used for finetuning. Despite its state-of-the-art performance on clean images, MIM models are vulnerable to adversarial attacks, limiting its real-world application, and few studies have focused on this issue. In this paper, we have discovered that noisy image modeling (NIM), a variant of MIM that uses denoising as the pre-text task, provides not only good pretrained visual features, but also effective adversarial defense for downstream models. To achieve a better accuracy-robustness trade-off, we further propose to sample the hyperparameter that controls the reconstruction difficulty from random distributions instead of setting it globally, and fine-tune downstream networks with denoised images. Experimental results demonstrate that our pre-trained denoising autoencoders are effective against different white-box, gray-box, and black-box attacks without being trained with adversarial images, while not harming the clean accuracy of fine-tuned models. Source code and models will be made available.