アルゴリズムの堅牢性を評価することは困難な作業となる、さまざまなタイプの機械学習アルゴリズムに対する多数の敵対的な攻撃と防御が存在します。さらに悪いことに、これらの敵対的なアルゴリズムには本質的なバイアスがあります。ここでは、直面する問題を整理します。a)モデルの依存性、b)不十分な評価、c)偽の対立サンプル、d)摂動依存性の結果)。これに基づいて、モデルにとらわれない二重品質評価方法と、それらに取り組むためのロバストネスレベルのコンセプトを提案します。最先端のニューラルネットワーク(WideResNet、ResNet、AllConv、DenseNet、NIN、LeNet、CapsNet)の二重品質評価と、画像分類問題の敵対的防御を検証します。さらに、現在のネットワークと防御は、堅牢性のすべてのレベルで脆弱であることを示しています。提案されたロバスト性評価は、使用されるメトリック(つまり、L_0またはL_∞)に応じて、ロバスト性が大幅に異なる可能性があることを示しています。したがって、正確な評価のために双対性を考慮する必要があります。さらに、数学的導出および反例は、L_1およびL_2メトリックだけでは、偽の敵対的なサンプルを回避するのに十分ではないことを示唆しています。興味深いことに、提案された評価のしきい値攻撃は、同様の結果を達成するために、1ピクセル攻撃(1ピクセル攻撃の摂動量の12%のみ)よりも少ない摂動を必要とする新しいL_∞ブラックボックス敵対法です。コードはhttp://bit.ly/DualQualityAssessmentで入手できます。
There exists a vast number of adversarial attacks and defences for machine learning algorithms of various types which makes assessing the robustness of algorithms a daunting task. To make matters worse, there is an intrinsic bias in these adversarial algorithms. Here, we organise the problems faced: a) Model Dependence, b) Insufficient Evaluation, c) False Adversarial Samples, and d) Perturbation Dependent Results). Based on this, we propose a model agnostic dual quality assessment method, together with the concept of robustness levels to tackle them. We validate the dual quality assessment on state-of-the-art neural networks (WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet and CapsNet) as well as adversarial defences for image classification problem. We further show that current networks and defences are vulnerable at all levels of robustness. The proposed robustness assessment reveals that depending on the metric used (i.e., L_0 or L_∞), the robustness may vary significantly. Hence, the duality should be taken into account for a correct evaluation. Moreover, a mathematical derivation, as well as a counter-example, suggest that L_1 and L_2 metrics alone are not sufficient to avoid spurious adversarial samples. Interestingly, the threshold attack of the proposed assessment is a novel L_∞ black-box adversarial method which requires even less perturbation than the One-Pixel Attack (only 12% of One-Pixel Attack's amount of perturbation) to achieve similar results. Code is available at http://bit.ly/DualQualityAssessment.