Improving Robustness using Generated Data
最近の研究では、堅牢なトレーニングには、標準的な分類に必要なデータセットよりも大幅に大きなデータセットが必要であると主張しています。 CIFAR-10およびCIFAR-100では、これは、元のトレーニングセットのデータのみでトレーニングされたモデルと、「8000万の小さな画像」データセット(TI-80M)から抽出された追加データでトレーニングされたモデルとの間にかなりの堅牢な精度のギャップをもたらします。 。このホワイトペーパーでは、元のトレーニングセットのみでトレーニングされた生成モデルを活用して、元のトレーニングセットのサイズを人為的に増やし、ℓ_pノルム有界摂動に対する敵対的ロバスト性を向上させる方法について説明します。追加の生成データを組み込むことでロバスト性を向上させることができる十分条件を特定し、追加の実際のデータでトレーニングされたモデルとのロバスト精度のギャップを大幅に減らすことができることを示します。驚いたことに、非現実的なランダムデータ(ガウスサンプリングによって生成された)を追加しても、ロバスト性が向上することを示しています。 CIFAR-10、CIFAR-100、SVHN、TinyImageNetでのアプローチを、それぞれサイズϵ = 8/255とϵ = 128/255のℓ_∞とℓ_2のノルム境界摂動に対して評価します。以前の最先端の方法と比較して、ロバストな精度が大幅に向上していることを示しています。サイズϵ = 8/255のℓ_∞ノルム境界摂動に対して、モデルはCIFAR-10およびCIFAR-100でそれぞれ66.10%および33.49%のロバスト精度を達成します(最先端技術を+ 8.96%改善)および+ 3.29%)。サイズϵ = 128/255のℓ_2ノルム有界摂動に対して、私たちのモデルはCIFAR-10で78.31%(+ 3.81%)を達成します。これらの結果は、外部データを使用する以前のほとんどの作業を上回っています。
Recent work argues that robust training requires substantially larger datasets than those required for standard classification. On CIFAR-10 and CIFAR-100, this translates into a sizable robust-accuracy gap between models trained solely on data from the original training set and those trained with additional data extracted from the "80 Million Tiny Images" dataset (TI-80M). In this paper, we explore how generative models trained solely on the original training set can be leveraged to artificially increase the size of the original training set and improve adversarial robustness to ℓ_p norm-bounded perturbations. We identify the sufficient conditions under which incorporating additional generated data can improve robustness, and demonstrate that it is possible to significantly reduce the robust-accuracy gap to models trained with additional real data. Surprisingly, we even show that even the addition of non-realistic random data (generated by Gaussian sampling) can improve robustness. We evaluate our approach on CIFAR-10, CIFAR-100, SVHN and TinyImageNet against ℓ_∞ and ℓ_2 norm-bounded perturbations of size ϵ= 8/255 and ϵ= 128/255, respectively. We show large absolute improvements in robust accuracy compared to previous state-of-the-art methods. Against ℓ_∞ norm-bounded perturbations of size ϵ= 8/255, our models achieve 66.10% and 33.49% robust accuracy on CIFAR-10 and CIFAR-100, respectively (improving upon the state-of-the-art by +8.96% and +3.29%). Against ℓ_2 norm-bounded perturbations of size ϵ= 128/255, our model achieves 78.31% on CIFAR-10 (+3.81%). These results beat most prior works that use external data.
updated: Mon Oct 18 2021 17:00:26 GMT+0000 (UTC)
published: Mon Oct 18 2021 17:00:26 GMT+0000 (UTC)
