ディープネットワークは、コンピュータビジョンタスクで最先端のパフォーマンスを実現しますが、人間が認識できない敵対的な攻撃では失敗します。この論文では、複数の自己監視タスクからの固有の構造を使用して入力を動的に適応させることができる新しい防御を提案します。多くの自己監視タスクを同時に使用することにより、私たちの防御は、適応された画像を1つの特定の自己監視タスクに過剰適合させることを回避し、単一の自己監視タスクアプローチと比較して画像内のより本質的な構造を復元します。私たちのアプローチは、最先端の単一タスクの自己監視型防御と比較して、堅牢性とクリーンな精度をさらに大幅に向上させます。私たちの仕事は、複数の自己監視タスクをロバスト性に結び付ける最初のものであり、視覚データからのより本質的な信号でより良いロバスト性を達成できることを示唆しています。
Deep networks achieve state-of-the-art performance on computer vision tasks, yet they fail under adversarial attacks that are imperceptible to humans. In this paper, we propose a novel defense that can dynamically adapt the input using the intrinsic structure from multiple self-supervised tasks. By simultaneously using many self-supervised tasks, our defense avoids over-fitting the adapted image to one specific self-supervised task and restores more intrinsic structure in the image compared to a single self-supervised task approach. Our approach further improves robustness and clean accuracy significantly compared to the state-of-the-art single task self-supervised defense. Our work is the first to connect multiple self-supervised tasks to robustness, and suggests that we can achieve better robustness with more intrinsic signal from visual data.