多くのアプリケーションにおけるディープニューラルネットワークの前例のない成功により、これらのネットワークは敵対的な搾取の主要なターゲットになりました。このペーパーでは、深い畳み込みニューラルネットワーク(CNN)に対するバックドア攻撃(別名トロイの木馬攻撃)を検出するためのベンチマーク手法を紹介します。ユニバーサルリトマスパターン(ULP)の概念を紹介します。ULPは、これらのユニバーサルパターンをネットワークに送り、出力を分析する(つまり、ネットワークを「クリーン」または「破損」として分類する)ことにより、バックドア攻撃を明らかにすることができます。この検出は、CNNを通過するいくつかのフォワードパスのみを必要とするため、高速です。 4つのベンチマークデータセット、つまりドイツの交通標識認識ベンチマーク(GTSRB)、MNIST、CIFAR10、Tiny-ImageNetでトレーニングされたさまざまなアーキテクチャを持つ数千のネットワークに対するバックドア攻撃を検出するためのULPの有効性を示します。このペーパーのコードとトレーニング/テストモデルは、https://umbcvision.github.io/Universal-Litmus-Patterns/にあります。
The unprecedented success of deep neural networks in many applications has made these networks a prime target for adversarial exploitation. In this paper, we introduce a benchmark technique for detecting backdoor attacks (aka Trojan attacks) on deep convolutional neural networks (CNNs). We introduce the concept of Universal Litmus Patterns (ULPs), which enable one to reveal backdoor attacks by feeding these universal patterns to the network and analyzing the output (i.e., classifying the network as `clean' or `corrupted'). This detection is fast because it requires only a few forward passes through a CNN. We demonstrate the effectiveness of ULPs for detecting backdoor attacks on thousands of networks with different architectures trained on four benchmark datasets, namely the German Traffic Sign Recognition Benchmark (GTSRB), MNIST, CIFAR10, and Tiny-ImageNet. The codes and train/test models for this paper can be found here https://umbcvision.github.io/Universal-Litmus-Patterns/.