ディープニューラルネットワークモデルは、今日、人工知能のさまざまなアプリケーションで使用されており、敵対的攻撃に直面した場合の強化は特に重要です。敵対的攻撃に対する適切な解決策は、敵対的トレーニングです。これは、堅牢性と一般化の間のトレードオフに達します。このホワイトペーパーでは、敵対的攻撃のシナリオにおける任意のニューラルネットワークのレイヤーの脆弱性を分析するための新しいフレームワーク(レイヤーサステナビリティ分析(LSA))を紹介します。 LSAは、ディープニューラルネットワークを評価し、レイヤーの監視と分析を通じてモデルレイヤーの持続可能性を改善するための敵対的トレーニングアプローチを拡張するための便利なツールキットになります。 LSAフレームワークは、特定のネットワークの最も脆弱なレイヤーのリスト(MVLリスト)を識別します。比較尺度としての相対誤差は、敵対的な入力に対する各層の表現の持続可能性を評価するために使用されます。敵対的攻撃をかわすために堅牢なニューラルネットワークを取得するために提案されたアプローチは、敵対的トレーニング(AT)のLSA提案に対する層ごとの正則化(LR)に基づいています。つまり、AT-LR手順です。 AT-LRは、ベンチマークの敵対的攻撃とともに使用して、ネットワークレイヤーの脆弱性を軽減し、従来の敵対的トレーニングアプローチを改善することができます。提案されたアイデアは、最先端の多層パーセプトロンと畳み込みニューラルネットワークアーキテクチャに対して理論的および実験的にうまく機能します。 AT-LRとそれに対応する基本的な敵対的トレーニングと比較して、より重要な摂動の分類精度は、Moon、MNIST、およびCIFAR-10ベンチマークデータセットでそれぞれ16.35%、21.79%、および10.730%増加しました。 LSAフレームワークは、https://github.com/khalooei/LSAで入手および公開されています。
Deep neural network models are used today in various applications of artificial intelligence, the strengthening of which, in the face of adversarial attacks is of particular importance. An appropriate solution to adversarial attacks is adversarial training, which reaches a trade-off between robustness and generalization. This paper introduces a novel framework (Layer Sustainability Analysis (LSA)) for the analysis of layer vulnerability in an arbitrary neural network in the scenario of adversarial attacks. LSA can be a helpful toolkit to assess deep neural networks and to extend the adversarial training approaches towards improving the sustainability of model layers via layer monitoring and analysis. The LSA framework identifies a list of Most Vulnerable Layers (MVL list) of the given network. The relative error, as a comparison measure, is used to evaluate representation sustainability of each layer against adversarial inputs. The proposed approach for obtaining robust neural networks to fend off adversarial attacks is based on a layer-wise regularization (LR) over LSA proposal(s) for adversarial training (AT); i.e. the AT-LR procedure. AT-LR could be used with any benchmark adversarial attack to reduce the vulnerability of network layers and to improve conventional adversarial training approaches. The proposed idea performs well theoretically and experimentally for state-of-the-art multilayer perceptron and convolutional neural network architectures. Compared with the AT-LR and its corresponding base adversarial training, the classification accuracy of more significant perturbations increased by 16.35%, 21.79%, and 10.730% on Moon, MNIST, and CIFAR-10 benchmark datasets, respectively. The LSA framework is available and published at https://github.com/khalooei/LSA.