ℓ_p-ノルムなどの単一の摂動タイプの敵対的な例に対するモデルのロバスト性は広く研究されていますが、複数のセマンティック摂動とその構成を含むより現実的なシナリオへの一般化は、ほとんど未調査のままです。この論文では、最初に、複合敵対例を生成するための新しい方法を提案します。私たちの方法は、コンポーネントごとの射影勾配降下と自動攻撃順序スケジューリングを利用することにより、最適な攻撃構成を見つけることができます。次に、一般化された敵対的トレーニング (GAT) を提案して、モデルのロバスト性を ℓ_p-ball から、色相、彩度、明るさ、コントラスト、回転の組み合わせなどの合成セマンティック摂動に拡張します。 ImageNet と CIFAR-10 データセットを使用して得られた結果は、GAT が単一の攻撃のテストされたすべてのタイプだけでなく、そのような攻撃の任意の組み合わせに対しても堅牢である可能性があることを示しています。 GAT はまた、ベースラインの ℓ_∞ ノルム境界のある敵対的トレーニング アプローチよりも大幅に優れています。
Model robustness against adversarial examples of single perturbation type such as the ℓ_p-norm has been widely studied, yet its generalization to more realistic scenarios involving multiple semantic perturbations and their composition remains largely unexplored. In this paper, we first propose a novel method for generating composite adversarial examples. Our method can find the optimal attack composition by utilizing component-wise projected gradient descent and automatic attack-order scheduling. We then propose generalized adversarial training (GAT) to extend model robustness from ℓ_p-ball to composite semantic perturbations, such as the combination of Hue, Saturation, Brightness, Contrast, and Rotation. Results obtained using ImageNet and CIFAR-10 datasets indicate that GAT can be robust not only to all the tested types of a single attack, but also to any combination of such attacks. GAT also outperforms baseline ℓ_∞-norm bounded adversarial training approaches by a significant margin.