Blacklight: Scalable Defense for Neural Networks against Query-Based Black-Box Attacks

Huiying Li; Shawn Shan; Emily Wenger; Jiayun Zhang; Haitao Zheng; Ben Y. Zhao

ブラックライト：クエリベースのブラックボックス攻撃に対するニューラルネットワークのスケーラブルな防御

深層学習システムは、敵対的な例に対して脆弱であることが知られています。特に、クエリベースのブラックボックス攻撃はディープラーニングモデルの知識を必要としませんが、クエリを送信してリターンを検査することにより、ネットワークを介して敵対的な例を計算できます。最近の作業により、これらの攻撃の効率が大幅に向上し、今日のサービスとしてのMLプラットフォームでの実用性が実証されています。クエリベースのブラックボックスの敵対的攻撃に対する新しい防御策であるBlacklightを提案します。私たちの設計を推進する基本的な洞察は、敵対的な例を計算するために、これらの攻撃がネットワーク上で反復最適化を実行し、入力空間で非常に類似した画像クエリを生成することです。 Blacklightは、確率的なコンテンツフィンガープリントで動作する効率的な類似性エンジンを使用して、非常に類似したクエリを検出することにより、クエリベースのブラックボックス攻撃を検出します。さまざまなモデルと画像分類タスクにわたって、8つの最先端の攻撃に対してブラックライトを評価します。 Blacklightは、多くの場合、ほんの一握りのクエリの後で、それらすべてを識別します。検出されたすべてのクエリを拒否することにより、攻撃者がアカウントの禁止またはクエリの拒否後にクエリを送信し続ける場合でも、Blacklightは攻撃の完了を防ぎます。ブラックライトは、効率的にホワイトボックス攻撃に近い最適なブラックボックス攻撃を含む、いくつかの強力な対抗策に対しても堅牢です。最後に、Blacklightがテキスト分類などの他のドメインにどのように一般化するかを説明します。

Deep learning systems are known to be vulnerable to adversarial examples. In particular, query-based black-box attacks do not require knowledge of the deep learning model, but can compute adversarial examples over the network by submitting queries and inspecting returns. Recent work largely improves the efficiency of those attacks, demonstrating their practicality on today's ML-as-a-service platforms. We propose Blacklight, a new defense against query-based black-box adversarial attacks. The fundamental insight driving our design is that, to compute adversarial examples, these attacks perform iterative optimization over the network, producing image queries highly similar in the input space. Blacklight detects query-based black-box attacks by detecting highly similar queries, using an efficient similarity engine operating on probabilistic content fingerprints. We evaluate Blacklight against eight state-of-the-art attacks, across a variety of models and image classification tasks. Blacklight identifies them all, often after only a handful of queries. By rejecting all detected queries, Blacklight prevents any attack to complete, even when attackers persist to submit queries after account ban or query rejection. Blacklight is also robust against several powerful countermeasures, including an optimal black-box attack that approximates white-box attacks in efficiency. Finally, we illustrate how Blacklight generalizes to other domains like text classification.

updated: Thu Jun 09 2022 05:11:53 GMT+0000 (UTC)

published: Wed Jun 24 2020 20:52:24 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト