この論文では、敵対的にロバストなディープニューラルネットワークをトレーニングするための新しいアルゴリズムファミリATENTを提案します。追加のエントロピー正則化を備えた新しい損失関数を定式化します。私たちの損失関数は、データ空間内の特別に設計された分布から抽出された敵対的なサンプルの寄与を考慮します。これにより、損失の高いポイントとトレーニングサンプルのすぐ近くに高い確率が割り当てられます。私たちが提案するアルゴリズムは、この損失を最適化して、損失の状況の敵対的に堅牢な谷を探します。私たちのアプローチは、MNISTやCIFAR-10などのベンチマークデータセットでのいくつかの最先端の堅牢な学習アプローチと比較して、堅牢な分類精度の点で競争力のある(またはより良い)パフォーマンスを実現します。
In this paper we propose a new family of algorithms, ATENT, for training adversarially robust deep neural networks. We formulate a new loss function that is equipped with an additional entropic regularization. Our loss function considers the contribution of adversarial samples that are drawn from a specially designed distribution in the data space that assigns high probability to points with high loss and in the immediate neighborhood of training samples. Our proposed algorithms optimize this loss to seek adversarially robust valleys of the loss landscape. Our approach achieves competitive (or better) performance in terms of robust classification accuracy as compared to several state-of-the-art robust learning approaches on benchmark datasets such as MNIST and CIFAR-10.