このホワイトペーパーでは、敵対的な例に対するディープニューラルネットワーク分類器の堅牢性を強化するための、Adaptive-Gravityと呼ばれる新しいモデルトレーニングソリューションを紹介します。各クラスに関連付けられたモデルパラメータ/フィーチャを、その重心の位置と重心の周りのフィーチャの広がり(距離の標準偏差)によって特徴付けられる質量として概念化します。各クラスターに関連付けられた重心を使用して、ネットワークトレーニング中に異なるクラスの重心を互いに遠ざける反重力を導き出します。次に、各クラスの特徴を、反重力によって得られた対応する新しい重心に集中させることを目的とした目的関数をカスタマイズしました。この方法により、異なる質量間の分離が大きくなり、各重心の周りの特徴の広がりが減少します。その結果、サンプルは敵対的な例をマッピングできる空間から押し出され、敵対的な例を作成するために必要な摂動の程度が効果的に増加します。このトレーニングソリューションは、各反復で4つのステップ(1)重心抽出、2)反重力力計算、3)重心再配置、および4)重力トレーニングで構成される反復法として実装されています。重力の効率は、MNISTおよびCIFAR10分類の問題に対してベンチマークされた、LeNetおよびResNet110ネットワークを使用したFGSM、MIM、BIM、およびPGDを含むさまざまな攻撃モデルに対する対応するだまし率を測定することによって評価されます。テスト結果は、Gravityが最先端の敵対攻撃に対してモデルを堅牢にする強力な手段として機能するだけでなく、モデルのトレーニング精度を効果的に向上させることを示しています。
This paper presents a novel model training solution, denoted as Adaptive-Gravity, for enhancing the robustness of deep neural network classifiers against adversarial examples. We conceptualize the model parameters/features associated with each class as a mass characterized by its centroid location and the spread (standard deviation of the distance) of features around the centroid. We use the centroid associated with each cluster to derive an anti-gravity force that pushes the centroids of different classes away from one another during network training. Then we customized an objective function that aims to concentrate each class's features toward their corresponding new centroid, which has been obtained by anti-gravity force. This methodology results in a larger separation between different masses and reduces the spread of features around each centroid. As a result, the samples are pushed away from the space that adversarial examples could be mapped to, effectively increasing the degree of perturbation needed for making an adversarial example. We have implemented this training solution as an iterative method consisting of four steps at each iteration: 1) centroid extraction, 2) anti-gravity force calculation, 3) centroid relocation, and 4) gravity training. Gravity's efficiency is evaluated by measuring the corresponding fooling rates against various attack models, including FGSM, MIM, BIM, and PGD using LeNet and ResNet110 networks, benchmarked against MNIST and CIFAR10 classification problems. Test results show that Gravity not only functions as a powerful instrument to robustify a model against state-of-the-art adversarial attacks but also effectively improves the model training accuracy.