ディープニューラルネットワークモデルは、今日、人工知能のさまざまなアプリケーションで使用されており、敵対的攻撃に直面した場合の強化は特に重要です。敵対的攻撃に対する適切な解決策は、敵対的訓練です。これは、堅牢性と一般化の間のトレードオフに達します。このホワイトペーパーでは、敵対的攻撃のシナリオにおける特定のニューラルネットワークのレイヤーの脆弱性を分析するための新しいフレームワーク(レイヤーサステナビリティ分析(LSA))を紹介します。 LSAは、ディープニューラルネットワークを評価し、レイヤーの監視と分析を通じてモデルレイヤーの持続可能性を改善するための敵対的トレーニングアプローチを拡張するための便利なツールキットになります。 LSAフレームワークは、特定のネットワークの最も脆弱なレイヤーのリスト(MVLリスト)を識別します。比較尺度としての相対誤差は、敵対的攻撃入力に対する各レイヤーの表現の持続可能性を評価するために使用されます。敵対的攻撃をかわすために堅牢なニューラルネットワークを取得するために提案されたアプローチは、敵対的トレーニング(AT)のLSA提案に対する層ごとの正則化(LR)に基づいています。つまり、AT-LR手順です。 AT-LRは、ネットワークレイヤーの脆弱性を軽減し、従来の敵対的トレーニングアプローチを改善するために、ベンチマークの敵対的攻撃とともに使用できます。提案されたアイデアは、最先端の多層パーセプトロンと畳み込みニューラルネットワークアーキテクチャに対して理論的および実験的にうまく機能します。 AT-LRとそれに対応する基本的な敵対的トレーニングと比較して、月、MNIST、およびCIFAR-10ベンチマークデータセットでは、AT-LRおよびそれぞれ、対応する基本的な敵対的訓練。 LSAフレームワークは、https://github.com/khalooei/LSAで入手および公開されています。
Deep neural network models are used today in various applications of artificial intelligence, the strengthening of which, in the face of adversarial attacks is of particular importance. An appropriate solution to adversarial attacks is adversarial training, which reaches a trade-off between robustness and generalization. This paper introduces a novel framework (Layer Sustainability Analysis (LSA)) for the analysis of layer vulnerability in a given neural network in the scenario of adversarial attacks. LSA can be a helpful toolkit to assess deep neural networks and to extend adversarial training approaches towards improving the sustainability of model layers via layer monitoring and analysis. The LSA framework identifies a list of Most Vulnerable Layers (MVL list) of a given network. The relative error, as a comparison measure, is used to evaluate the representation sustainability of each layer against adversarial attack inputs. The proposed approach for obtaining robust neural networks to fend off adversarial attacks is based on a layer-wise regularization (LR) over LSA proposal(s) for adversarial training (AT); i.e. the AT-LR procedure. AT-LR could be used with any benchmark adversarial attack to reduce the vulnerability of network layers and to improve conventional adversarial training approaches. The proposed idea performs well theoretically and experimentally for state-of-the-art multilayer perceptron and convolutional neural network architectures. Compared with the AT-LR and its corresponding base adversarial training, the classification accuracy of more significant perturbations increased by 16.35%, 21.79%, and 10.730% on Moon, MNIST, and CIFAR-10 benchmark datasets in comparison with the AT-LR and its corresponding base adversarial training, respectively. The LSA framework is available and published at https://github.com/khalooei/LSA.