arXiv reaDer
2つの結合された拒否メトリックは敵対的な例を区別することができます
Two Coupled Rejection Metrics Can Tell Adversarial Examples Apart
敵対的な例を正しく分類することは、機械学習モデルを安全に展開するために不可欠ですが、難しい要件です。 RobustBenchで報告されているように、最先端の敵対的に訓練されたモデルでさえ、CIFAR-10で67%の堅牢なテスト精度を超えるのに苦労しています。これは実用的とはほど遠いものです。ロバスト性に向けた補完的な方法は、拒否オプションを導入することです。これにより、モデルが不確実な入力の予測を返さないようにします。信頼性は、一般的に使用される確実性プロキシです。このルーチンに加えて、信頼度と修正された信頼度(R-Con)が、誤って分類された入力と正しく分類された入力を確実に区別できる2つの結合された拒否メトリックを形成できることがわかります。この興味深い特性は、敵対的な例をより適切に検出して拒否するための結合戦略の使用に光を当てます。 CIFAR-10、CIFAR-10-C、およびCIFAR-100の修正拒否(RR)モジュールを、適応型攻撃を含むいくつかの攻撃の下で評価し、RRモジュールが、堅牢性の向上に関するさまざまな敵対的トレーニングフレームワークと互換性があることを示します。追加の計算。コードはhttps://github.com/P2333/Rectified-Rejectionで入手できます。
Correctly classifying adversarial examples is an essential but challenging requirement for safely deploying machine learning models. As reported in RobustBench, even the state-of-the-art adversarially trained models struggle to exceed 67% robust test accuracy on CIFAR-10, which is far from practical. A complementary way towards robustness is to introduce a rejection option, allowing the model to not return predictions on uncertain inputs, where confidence is a commonly used certainty proxy. Along with this routine, we find that confidence and a rectified confidence (R-Con) can form two coupled rejection metrics, which could provably distinguish wrongly classified inputs from correctly classified ones. This intriguing property sheds light on using coupling strategies to better detect and reject adversarial examples. We evaluate our rectified rejection (RR) module on CIFAR-10, CIFAR-10-C, and CIFAR-100 under several attacks including adaptive ones, and demonstrate that the RR module is compatible with different adversarial training frameworks on improving robustness, with little extra computation. The code is available at https://github.com/P2333/Rectified-Rejection.
updated: Wed Dec 08 2021 03:27:21 GMT+0000 (UTC)
published: Mon May 31 2021 08:24:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト