arXiv reaDer
プライバシー保護データ生成のための差分プライベート ニューラル タンジェント カーネル
Differentially Private Neural Tangent Kernels for Privacy-Preserving Data Generation
最大平均不一致 (MMD) は、差別的にプライベートなデータ生成に特に役立つ距離メトリックです。有限次元の機能と一緒に使用すると、データ分布を一度要約してプライベート化することができ、ジェネレーターのトレーニング中にそれ以上プライバシーを失うことなく繰り返し使用できます。したがって、このフレームワークにおける重要な問題は、実際のデータ分布と合成データ分布を区別するのにどのような機能が役立つか、そしてそれらが高品質の合成データを生成できるかどうかです。この作業では、ニューラル タンジェント カーネル (NTK)、より正確には経験的 NTK (e-NTK) の機能の使用を検討します。おそらく驚くべきことに、トレーニングされていない e-NTK 機能の表現力は、公開データを使用して事前にトレーニングされた知覚機能から得られた機能の表現力に匹敵することがわかりました。その結果、私たちの方法は、公開データに依存することなく、他の最先端の方法と比較してプライバシーと精度のトレードオフを改善します。これは、いくつかの表形式および画像ベンチマーク データセットで実証されています。
Maximum mean discrepancy (MMD) is a particularly useful distance metric for differentially private data generation: when used with finite-dimensional features it allows us to summarize and privatize the data distribution once, which we can repeatedly use during generator training without further privacy loss. An important question in this framework is, then, what features are useful to distinguish between real and synthetic data distributions, and whether those enable us to generate quality synthetic data. This work considers the using the features of neural tangent kernels (NTKs), more precisely empirical NTKs (e-NTKs). We find that, perhaps surprisingly, the expressiveness of the untrained e-NTK features is comparable to that of the features taken from pre-trained perceptual features using public data. As a result, our method improves the privacy-accuracy trade-off compared to other state-of-the-art methods, without relying on any public data, as demonstrated on several tabular and image benchmark datasets.
updated: Fri Mar 03 2023 03:00:49 GMT+0000 (UTC)
published: Fri Mar 03 2023 03:00:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト