arXiv reaDer
プライバシーの蒸留: 多峰性拡散モデルの再特定リスクを軽減する
Privacy Distillation: Reducing Re-identification Risk of Multimodal Diffusion Models
ニューラル ネットワークにおける知識の蒸留とは、大規模なモデルまたはデータセットをそれ自体の小さなバージョンに圧縮することを指します。プライバシー蒸留を紹介します。これは、テキストから画像への生成モデルが、識別可能なデータにさらされることなく別のモデルを学習できるようにするフレームワークです。ここでは、マルチモーダル生成モデルを介してデータを共有したいと考えているデータプロバイダーが直面するプライバシー問題に興味を持っています。すぐに浮かぶ疑問は、「データプロバイダーは、生成モデルから患者に関する個人情報が漏洩していないことをどのように保証できるでしょうか?」というものです。私たちのソリューションは、(1) 実際のデータで最初の拡散モデルをトレーニングする (2) このモデルを使用して合成データセットを生成し、それをフィルタリングして再識別可能性のリスクのある画像を除外する (3) フィルタリングされた合成データで 2 番目の拡散モデルをトレーニングする、で構成されます。それだけ。プライバシー蒸留でトレーニングされたモデルからサンプリングされたデータセットが、ダウンストリームのパフォーマンスを維持しながら、再特定のリスクを効果的に軽減できることを紹介します。
Knowledge distillation in neural networks refers to compressing a large model or dataset into a smaller version of itself. We introduce Privacy Distillation, a framework that allows a text-to-image generative model to teach another model without exposing it to identifiable data. Here, we are interested in the privacy issue faced by a data provider who wishes to share their data via a multimodal generative model. A question that immediately arises is ``How can a data provider ensure that the generative model is not leaking identifiable information about a patient?''. Our solution consists of (1) training a first diffusion model on real data (2) generating a synthetic dataset using this model and filtering it to exclude images with a re-identifiability risk (3) training a second diffusion model on the filtered synthetic data only. We showcase that datasets sampled from models trained with privacy distillation can effectively reduce re-identification risk whilst maintaining downstream performance.
updated: Fri Jun 02 2023 07:44:00 GMT+0000 (UTC)
published: Fri Jun 02 2023 07:44:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト