arXiv reaDer
優れたアーティストのコピー、優れたアーティストの盗み:画像翻訳に対するモデル抽出攻撃生成的敵対的ネットワーク
Good Artists Copy, Great Artists Steal: Model Extraction Attacks Against Image Translation Generative Adversarial Networks
機械学習モデルは通常、推論APIを介して潜在的なクライアントユーザーが利用できるようになります。モデル抽出攻撃は、悪意のあるクライアントが、被害者モデルF_Vの推論APIへのクエリから収集した情報を使用して、同等の機能を持つ代理モデルF_Aを構築するときに発生します。最近の調査では、画像分類およびNLPモデルに対するモデル抽出攻撃が成功していることが示されています。この論文では、現実世界の生成的敵対的ネットワーク(GAN)画像変換モデルに対する最初のモデル抽出攻撃を示します。画像変換モデルに対してモデル抽出攻撃を実行するためのフレームワークを提示し、攻撃者が機能的な代理モデルを正常に抽出できることを示します。攻撃者は、F_Vのアーキテクチャや、意図した画像変換タスク以外のその他の情報を知る必要はなく、F_Vのトレーニングデータと同じドメインから取得したデータを使用してF_Vの推論インターフェイスにクエリを実行します。画像翻訳の2つの人気のあるカテゴリの3つの異なるインスタンスを使用して、攻撃の有効性を評価します:(1)Selfie-to-Animeおよび(2)Monet-to-Photo(画像スタイル転送)、および(3)超解像(超解像)。 GANの標準的なパフォーマンス指標を使用して、攻撃が3つのケースのそれぞれで効果的であることを示します。ターゲットと比較したF_VとF_Aの違いは、次の範囲にあります。Selfie-to-Anime:FID 13.36-68.66、モネから写真へ:FID 3.57-4.40、超解像:SSIM:0.06-0.08およびPSNR:1.43-4.46。さらに、Selfie-to-AnimeとMonet-to-Photoに関する大規模な(125人の参加者)ユーザー調査を実施し、犠牲者と代理モデルによって生成された画像の人間の知覚が同等の範囲内で同等であると見なすことができることを示しましたコーエンのd = 0.3。
Machine learning models are typically made available to potential client users via inference APIs. Model extraction attacks occur when a malicious client uses information gleaned from queries to the inference API of a victim model F_V to build a surrogate model F_A that has comparable functionality. Recent research has shown successful model extraction attacks against image classification, and NLP models. In this paper, we show the first model extraction attack against real-world generative adversarial network (GAN) image translation models. We present a framework for conducting model extraction attacks against image translation models, and show that the adversary can successfully extract functional surrogate models. The adversary is not required to know F_V's architecture or any other information about it beyond its intended image translation task, and queries F_V's inference interface using data drawn from the same domain as the training data for F_V. We evaluate the effectiveness of our attacks using three different instances of two popular categories of image translation: (1) Selfie-to-Anime and (2) Monet-to-Photo (image style transfer), and (3) Super-Resolution (super resolution). Using standard performance metrics for GANs, we show that our attacks are effective in each of the three cases -- the differences between F_V and F_A, compared to the target are in the following ranges: Selfie-to-Anime: FID 13.36-68.66, Monet-to-Photo: FID 3.57-4.40, and Super-Resolution: SSIM: 0.06-0.08 and PSNR: 1.43-4.46. Furthermore, we conducted a large scale (125 participants) user study on Selfie-to-Anime and Monet-to-Photo to show that human perception of the images produced by the victim and surrogate models can be considered equivalent, within an equivalence bound of Cohen's d=0.3.
updated: Mon Apr 26 2021 14:50:59 GMT+0000 (UTC)
published: Mon Apr 26 2021 14:50:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト