ブラックボックス攻撃方法は、モデルの出力フィードバックと対応する入力クエリのみを使用して、ターゲットのDNNモデルに適切な攻撃パターンを推測することを目的としています。ただし、クエリとフィードバック情報を活用する際の事前の非効率性のために、既存の方法は、効果的な攻撃パターンを取得するために、ほとんどクエリ集中型です。この作業では、はるかに少ないクエリでターゲットモデルを攻撃できるメタ攻撃アプローチを提案します。その高いクエリ効率は、以前に観察された攻撃パターンから一般化可能な事前抽象化を学習し、わずかなクエリと出力から攻撃パターンを推測するのを助けるために事前に活用するメタ学習アプローチの効果的な利用に由来しますMNIST、CIFAR10、tiny-Imagenetでの広範な実験により、メタ攻撃手法は、攻撃のパフォーマンスを犠牲にすることなく、モデルクエリの数を大幅に削減できることが実証されています。また、取得したメタ攻撃者は特定のモデルに限定されず、さまざまなモデルを攻撃するための高速な適応能力で簡単に使用できます。作業コードはhttps://github.com/dydjw9/MetaAttack_ICLR2020/で入手できます。 。
Black-box attack methods aim to infer suitable attack patterns to targeted DNN models by only using output feedback of the models and the corresponding input queries. However, due to lack of prior and inefficiency in leveraging the query and feedback information, existing methods are mostly query-intensive for obtaining effective attack patterns. In this work, we propose a meta attack approach that is capable of attacking a targeted model with much fewer queries. Its high queryefficiency stems from effective utilization of meta learning approaches in learning generalizable prior abstraction from the previously observed attack patterns and exploiting such prior to help infer attack patterns from only a few queries and outputs. Extensive experiments on MNIST, CIFAR10 and tiny-Imagenet demonstrate that our meta-attack method can remarkably reduce the number of model queries without sacrificing the attack performance. Besides, the obtained meta attacker is not restricted to a particular model but can be used easily with a fast adaptive ability to attack a variety of models.The code of our work is available at https://github.com/dydjw9/MetaAttack_ICLR2020/.