データ順序付け攻撃による SGD の操作
Manipulating SGD with Data Ordering Attacks
機械学習は、さまざまな攻撃に対して脆弱です。基礎となるデータ分散を変更することで、敵対者がそのデータを使ってトレーニングしたモデルを毒したり、バックドアを導入したりできることがよく理解されています。このホワイト ペーパーでは、基礎となるデータセットやモデル アーキテクチャを変更する必要はなく、データがモデルに供給される順序のみを変更する、新しいクラスのトレーニング時攻撃を紹介します。特に、攻撃者はモデルの学習を妨げるか、攻撃者が指定した動作を学習するようにモデルをポイズニングすることができます。さらに、敵対的に順序付けられた単一のエポックでも、モデルの学習を遅らせたり、学習の進行状況をすべてリセットしたりするのに十分であることがわかりました。実際、ここで紹介されている攻撃は、モデルやデータセットに固有のものではなく、現代の学習手順の確率論的性質を標的にしています。コンピューター ビジョンと自然言語ベンチマークに対する攻撃を広範に評価し、攻撃者がモデル トレーニングを妨害し、バックドアを導入する可能性があることを発見しました。
Machine learning is vulnerable to a wide variety of attacks. It is now well understood that by changing the underlying data distribution, an adversary can poison the model trained with it or introduce backdoors. In this paper we present a novel class of training-time attacks that require no changes to the underlying dataset or model architecture, but instead only change the order in which data are supplied to the model. In particular, we find that the attacker can either prevent the model from learning, or poison it to learn behaviours specified by the attacker. Furthermore, we find that even a single adversarially-ordered epoch can be enough to slow down model learning, or even to reset all of the learning progress. Indeed, the attacks presented here are not specific to the model or dataset, but rather target the stochastic nature of modern learning procedures. We extensively evaluate our attacks on computer vision and natural language benchmarks to find that the adversary can disrupt model training and even introduce backdoors.
updated: Sat Jun 05 2021 10:22:15 GMT+0000 (UTC)
published: Mon Apr 19 2021 22:17:27 GMT+0000 (UTC)
