小さなオンデバイス モデルは、過去に次の単語予測と画像分類タスクのためにユーザー レベルの差分プライバシー (DP) を使用して正常にトレーニングされてきました。ただし、大きなクラス空間を持つ教師ありトレーニング データを使用して埋め込みモデルを学習するために既存の方法を直接適用すると、失敗する可能性があります。大規模な画像から埋め込みへの特徴抽出器でユーザーレベルの DP を実現するために、DP-FedEmb を提案します。DP-FedEmb は、ユーザーごとの感度制御とノイズ追加を備えた連合学習アルゴリズムの変形であり、データセンターに集中化されたユーザー分割データからトレーニングします。 DP-FedEmb は、仮想クライアント、部分集約、プライベート ローカル微調整、パブリック プレトレーニングを組み合わせて、プライバシー ユーティリティの強力なトレードオフを実現します。 DP-FedEmb を適用して、顔、ランドマーク、自然種の画像埋め込みモデルをトレーニングし、ベンチマーク データセット DigiFace、EMNIST、GLD、iNaturalist で同じプライバシー予算の下で優れた有用性を実証します。さらに、何百万人ものユーザーがトレーニングに参加できる場合、ユーティリティの低下を 5% 以内に抑えながら、ϵ<4 という強力なユーザーレベルの DP 保証を達成できることを示します。
Small on-device models have been successfully trained with user-level differential privacy (DP) for next word prediction and image classification tasks in the past. However, existing methods can fail when directly applied to learn embedding models using supervised training data with a large class space. To achieve user-level DP for large image-to-embedding feature extractors, we propose DP-FedEmb, a variant of federated learning algorithms with per-user sensitivity control and noise addition, to train from user-partitioned data centralized in the datacenter. DP-FedEmb combines virtual clients, partial aggregation, private local fine-tuning, and public pretraining to achieve strong privacy utility trade-offs. We apply DP-FedEmb to train image embedding models for faces, landmarks and natural species, and demonstrate its superior utility under same privacy budget on benchmark datasets DigiFace, EMNIST, GLD and iNaturalist. We further illustrate it is possible to achieve strong user-level DP guarantees of ϵ<4 while controlling the utility drop within 5%, when millions of users can participate in training.