この作業では、モデルの不一致の観点から、ブラックボックスの標的型攻撃の問題を研究します。理論的な側面では、ブラックボックスの標的型攻撃に限定された一般化エラーを提示します。これにより、攻撃の成功を保証するための厳密な理論的分析が得られます。ターゲットモデルの攻撃誤差は、主に代替モデルの経験的攻撃誤差と代替モデル間の最大モデル不一致に依存することを明らかにします。アルゴリズム側では、理論的分析に基づいてブラックボックス標的型攻撃の新しいアルゴリズムを導出します。このアルゴリズムでは、ジェネレーターをトレーニングして敵対的な例を生成するときに、代替モデルの最大モデル不一致 (M3D) をさらに最小限に抑えます。このようにして、私たちのモデルは、モデルのバリエーションにロバストな、非常に転送可能な敵対的な例を作成することができるため、ブラックボックスモデルへの攻撃の成功率が向上します。さまざまな分類モデルを使用して ImageNet データセットに対して広範な実験を行い、提案されたアプローチは既存の最先端の方法よりも大幅に優れています。私たちのコードが公開されます。
In this work, we study the black-box targeted attack problem from the model discrepancy perspective. On the theoretical side, we present a generalization error bound for black-box targeted attacks, which gives a rigorous theoretical analysis for guaranteeing the success of the attack. We reveal that the attack error on a target model mainly depends on empirical attack error on the substitute model and the maximum model discrepancy among substitute models. On the algorithmic side, we derive a new algorithm for black-box targeted attacks based on our theoretical analysis, in which we additionally minimize the maximum model discrepancy(M3D) of the substitute models when training the generator to generate adversarial examples. In this way, our model is capable of crafting highly transferable adversarial examples that are robust to the model variation, thus improving the success rate for attacking the black-box model. We conduct extensive experiments on the ImageNet dataset with different classification models, and our proposed approach outperforms existing state-of-the-art methods by a significant margin. Our codes will be released.