しかし、多くの最先端の深層学習モデルをだます可能性のある小さな摂動入力データと呼ばれる、敵対的な例に対するモデルの堅牢性を研究します。以前の研究とは異なり、自然な例の小さな近傍における損失関数の安定性の観点から堅牢性の問題に対処する新しい理論を確立します。エネルギー関数を利用して安定性を記述し、そのようなエネルギーを減らすことで敵対的な例に対する堅牢性が保証されることを証明することを提案します。また、l_2ノルム制約(AT)および仮想敵対訓練(VAT)による敵対訓練を含む従来の訓練方法が、提案されたエネルギー関数の下限を最小化する傾向があることも示します。ただし、このような下限を最小化すると、入力サンプルの近傍のロバスト性が不十分になる可能性があることを示す分析を行います。さらに、エネルギーの正則化により、より合理的な方法を設計します。これにより、以前の方法よりも優れた堅牢性を実現できます。一連の実験を通じて、教師付きタスクと半教師付きタスクの両方に対するモデルの優位性を実証します。特に、提案された敵対的フレームワークは、ベンチマークデータセットMNIST、CIFAR-10、およびSVHNでの以前の敵対的トレーニング方法と比較して最高のパフォーマンスを達成します。重要なのは、他のすべての比較方法よりも、敵対的な例に対してはるかに優れた堅牢性を示していることです。
We study the model robustness against adversarial examples, referred to as small perturbed input data that may however fool many state-of-the-art deep learning models. Unlike previous research, we establish a novel theory addressing the robustness issue from the perspective of stability of the loss function in the small neighborhood of natural examples. We propose to exploit an energy function to describe the stability and prove that reducing such energy guarantees the robustness against adversarial examples. We also show that the traditional training methods including adversarial training with the l_2 norm constraint (AT) and Virtual Adversarial Training (VAT) tend to minimize the lower bound of our proposed energy function. We make an analysis showing that minimization of such lower bound can however lead to insufficient robustness within the neighborhood around the input sample. Furthermore, we design a more rational method with the energy regularization which proves to achieve better robustness than previous methods. Through a series of experiments, we demonstrate the superiority of our model on both supervised tasks and semi-supervised tasks. In particular, our proposed adversarial framework achieves the best performance compared with previous adversarial training methods on benchmark datasets MNIST, CIFAR-10, and SVHN. Importantly, they demonstrate much better robustness against adversarial examples than all the other comparison methods.