物理的に実現可能な攻撃から画像分類のためのディープニューラルネットワークアプローチを防御する問題を研究します。最初に、ロバストモデルを学習するための最もスケーラブルで効果的な2つの方法、PGD攻撃とランダム化スムージングを使用した敵対的トレーニングが、3つの最もプロファイルの高い物理攻撃に対して非常に限られた効果を示すことを示します。次に、新しい抽象的な敵対モデルである長方形オクルージョン攻撃を提案します。攻撃者は、敵対者が細工した小さな長方形を画像に配置し、結果の敵対例を効率的に計算するための2つのアプローチを開発します。最後に、新しい攻撃を使用した敵対的訓練により、調査した物理的に実現可能な攻撃に対して高い堅牢性を示す画像分類モデルが得られ、そのような攻撃に対する最初の効果的な汎用防御が提供されることを実証します。
We study the problem of defending deep neural network approaches for image classification from physically realizable attacks. First, we demonstrate that the two most scalable and effective methods for learning robust models, adversarial training with PGD attacks and randomized smoothing, exhibit very limited effectiveness against three of the highest profile physical attacks. Next, we propose a new abstract adversarial model, rectangular occlusion attacks, in which an adversary places a small adversarially crafted rectangle in an image, and develop two approaches for efficiently computing the resulting adversarial examples. Finally, we demonstrate that adversarial training using our new attack yields image classification models that exhibit high robustness against the physically realizable attacks we study, offering the first effective generic defense against such attacks.