この論文では、画像の認定された堅牢な分類子を学習するための、Denoising Masked AutoEncoders (DMAE) と呼ばれる新しい自己教師あり方法を提案します。 DMAE では、ガウス ノイズを各ピクセル値に追加し、いくつかのパッチをランダムにマスキングすることで、各画像を破損します。次に、Transformer ベースのエンコーダー/デコーダー モデルをトレーニングして、破損した画像から元の画像を再構築します。この学習パラダイムでは、エンコーダーはダウンストリーム タスクに関連するセマンティクスをキャプチャすることを学習します。これは、ガウス加法的ノイズに対しても堅牢です。事前トレーニング済みのエンコーダーは、ガウス平滑化モデルの基本分類子として自然に使用できることを示します。このモデルでは、任意のデータ ポイントの認定半径を分析的に計算できます。提案された方法は単純ですが、下流の分類タスクのパフォーマンスが大幅に向上します。最近の研究 arXiv:2206.10550 で開発されたモデルの 1/10 パラメーターのみを使用する DMAE ViT-Base モデルが、さまざまな設定で競合またはより優れた認定精度を達成することを示します。 DMAE ViT-Large モデルは、これまでのすべての結果を大幅に上回り、ImageNet データセットの新しい最先端を確立しています。さらに、事前トレーニング済みのモデルが CIFAR-10 データセットに適切に転送できることを示しており、その幅広い適応性を示唆しています。モデルとコードは https://github.com/quanlin-wu/dmae で入手できます。
In this paper, we propose a new self-supervised method, which is called Denoising Masked AutoEncoders (DMAE), for learning certified robust classifiers of images. In DMAE, we corrupt each image by adding Gaussian noises to each pixel value and randomly masking several patches. A Transformer-based encoder-decoder model is then trained to reconstruct the original image from the corrupted one. In this learning paradigm, the encoder will learn to capture relevant semantics for the downstream tasks, which is also robust to Gaussian additive noises. We show that the pre-trained encoder can naturally be used as the base classifier in Gaussian smoothed models, where we can analytically compute the certified radius for any data point. Although the proposed method is simple, it yields significant performance improvement in downstream classification tasks. We show that the DMAE ViT-Base model, which just uses 1/10 parameters of the model developed in recent work arXiv:2206.10550, achieves competitive or better certified accuracy in various settings. The DMAE ViT-Large model significantly surpasses all previous results, establishing a new state-of-the-art on ImageNet dataset. We further demonstrate that the pre-trained model has good transferability to the CIFAR-10 dataset, suggesting its wide adaptability. Models and code are available at https://github.com/quanlin-wu/dmae.