堅牢な機械学習は現在、最も顕著なトピックの1つであり、平均的なケースだけでなく最悪のケースや悪条件でもうまく機能する高度なAIプラットフォームの将来を形作るのに役立つ可能性があります。ただし、長期的なビジョンにもかかわらず、ブラックボックスの敵対攻撃に関する既存の研究は、脅威モデルの非常に特定の設定(例:単一の歪みメトリックとクエリへのターゲットモデルのフィードバックに関する制限的な仮定)に制限されている、および/または非常に高いクエリの複雑さ。この分野のさらなる進歩を推進するために、さまざまな歪みメトリックとフィードバック設定を発生させずに機能する効率的で堅牢なブラックボックス攻撃を考案するために、演算子分割法、乗算器の交互方向法(ADMM)に基づく一般的なフレームワークを導入しますクエリの複雑さ脅威モデルのブラックボックスの性質により、提案されたADMMソリューションフレームワークはゼロ次(ZO)最適化とベイジアン最適化(BO)に統合されているため、勾配のない体制に適用できます。これにより、2つの新しいブラックボックス攻撃攻撃生成方法、ZO-ADMMおよびBO-ADMMが作成されます。画像分類データセットに関する経験的評価により、提案されたアプローチは、最先端の攻撃方法と比較して機能クエリの複雑さがはるかに低いが、非常に競争力のある攻撃成功率を達成していることがわかります。
Robust machine learning is currently one of the most prominent topics which could potentially help shaping a future of advanced AI platforms that not only perform well in average cases but also in worst cases or adverse situations. Despite the long-term vision, however, existing studies on black-box adversarial attacks are still restricted to very specific settings of threat models (e.g., single distortion metric and restrictive assumption on target model's feedback to queries) and/or suffer from prohibitively high query complexity. To push for further advances in this field, we introduce a general framework based on an operator splitting method, the alternating direction method of multipliers (ADMM) to devise efficient, robust black-box attacks that work with various distortion metrics and feedback settings without incurring high query complexity. Due to the black-box nature of the threat model, the proposed ADMM solution framework is integrated with zeroth-order (ZO) optimization and Bayesian optimization (BO), and thus is applicable to the gradient-free regime. This results in two new black-box adversarial attack generation methods, ZO-ADMM and BO-ADMM. Our empirical evaluations on image classification datasets show that our proposed approaches have much lower function query complexities compared to state-of-the-art attack methods, but achieve very competitive attack success rates.