ディープニューラルネットワーク(DNN)の予測は、慎重に作成された敵の摂動に対して脆弱であることが示されています。具体的には、任意の画像に追加された画像に依存しない(普遍的な敵対的)摂動は、ターゲットネットワークを欺いて誤った予測を行う可能性があります。主に画像ドメインで機能する既存の防御戦略とは別に、DNN機能ドメインで動作し、そのような普遍的な摂動から効果的に防御する新しい防御を提示します。私たちのアプローチは、敵対的なノイズに最も脆弱な事前トレーニング済みの畳み込み機能を特定し、これらのDNNフィルターのアクティブ化をユニバーサル摂動に対してロバストな弾力性のある機能に変換するトレーニング可能な機能再生ユニットを展開します。最大6つのDNNレイヤーで敵の影響を受けやすい上位50%のアクティベーションのみを再生成し、残りのすべてのDNNアクティベーションを変更せずに、異なるネットワークアーキテクチャにわたる既存の防御戦略を10%以上正確に復元します。追加の変更を行わずに、あるタイプのユニバーサル攻撃の例でImageNetでトレーニングした防御が、他のタイプの目に見えないユニバーサル攻撃から効果的に防御することを示します。
Deep neural network (DNN) predictions have been shown to be vulnerable to carefully crafted adversarial perturbations. Specifically, image-agnostic (universal adversarial) perturbations added to any image can fool a target network into making erroneous predictions. Departing from existing defense strategies that work mostly in the image domain, we present a novel defense which operates in the DNN feature domain and effectively defends against such universal perturbations. Our approach identifies pre-trained convolutional features that are most vulnerable to adversarial noise and deploys trainable feature regeneration units which transform these DNN filter activations into resilient features that are robust to universal perturbations. Regenerating only the top 50% adversarially susceptible activations in at most 6 DNN layers and leaving all remaining DNN activations unchanged, we outperform existing defense strategies across different network architectures by more than 10% in restored accuracy. We show that without any additional modification, our defense trained on ImageNet with one type of universal attack examples effectively defends against other types of unseen universal attacks.