Metric Learning for Adversarial Robustness
  ディープネットワークは、敵対攻撃に対して脆弱であることがよく知られています。 PGDと呼ばれる最先端の攻撃方法の下で、深い表現の経験的分析を行い、攻撃により内部表現が「false」クラスの近くにシフトすることがわかります。この観察に動機付けられて、攻撃を受けている表現空間を計量学習で正規化し、より堅牢な分類器を生成することを提案します。メトリック学習のサンプルを慎重にサンプリングすることにより、学習した表現は堅牢性を高めるだけでなく、これまで見えなかった敵対的なサンプルも検出します。定量的実験では、以前の作業に対する曲線下面積スコアに従って、ロバストネスの精度が最大4%向上し、検出効率が最大6%向上することが示されています。作業のコードは、で入手できます。
Deep networks are well-known to be fragile to adversarial attacks. We conduct an empirical analysis of deep representations under the state-of-the-art attack method called PGD, and find that the attack causes the internal representation to shift closer to the "false" class. Motivated by this observation, we propose to regularize the representation space under attack with metric learning to produce more robust classifiers. By carefully sampling examples for metric learning, our learned representation not only increases robustness, but also detects previously unseen adversarial samples. Quantitative experiments show improvement of robustness accuracy by up to 4% and detection efficiency by up to 6% according to Area Under Curve score over prior work. The code of our work is available at
updated: Mon Oct 28 2019 00:43:15 GMT+0000 (UTC)
published: Tue Sep 03 2019 00:39:40 GMT+0000 (UTC)
