arXiv reaDer
勾配部分空間距離によるプライベート機械学習用のパブリック データセットの選択
Choosing Public Datasets for Private Machine Learning via Gradient Subspace Distance
差分プライベート確率的勾配降下法は、各反復にノイズを注入することでモデル トレーニングをプライベート化し、ノイズの大きさはモデル パラメーターの数とともに増加します。最近の研究では、公開データによって規定された部分空間に勾配を投影することにより、公開データをプライベートな機械学習に活用することでノイズを削減できることが示唆されています。ただし、パブリック データセットを選択した場合、どれがプライベート タスクに最も適しているかはアプリオリに明確ではありません。公開例と非公開例の勾配間の低次元部分空間距離を測定することにより、公開データセットを選択するアルゴリズムを提供します。過剰リスクがこの部分空間距離に比例することを実証する理論的分析を提供します。この距離は計算が簡単で、設定の変更に対して堅牢です。経験的評価は、訓練されたモデルの精度がこの距離では単調であることを示しています。
Differentially private stochastic gradient descent privatizes model training by injecting noise into each iteration, where the noise magnitude increases with the number of model parameters. Recent works suggest that we can reduce the noise by leveraging public data for private machine learning, by projecting gradients onto a subspace prescribed by the public data. However, given a choice of public datasets, it is not a priori clear which one may be most appropriate for the private task. We give an algorithm for selecting a public dataset by measuring a low-dimensional subspace distance between gradients of the public and private examples. We provide theoretical analysis demonstrating that the excess risk scales with this subspace distance. This distance is easy to compute and robust to modifications in the setting. Empirical evaluation shows that trained model accuracy is monotone in this distance.
updated: Thu Mar 02 2023 13:36:28 GMT+0000 (UTC)
published: Thu Mar 02 2023 13:36:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト