ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが証明されています。特定の入力(トリガーと呼ばれる)によってのみアクティブ化される通常のモデルにトレーニングされた隠し機能(パターン)が、モデルをだまして予期しない動作を引き起こします。このペーパーでは、DNNモデルと人間の検査の両方をだますことができるバックドア攻撃(非表示のバックドア)の隠れた分散したトリガーを作成します。バックドア攻撃のトリガーを埋め込む2つの最先端の方法を使用して、目に見えないバックドアを適用します。 Badnetsへの最初のアプローチは、ステガノグラフィーを介してトリガーをDNNに埋め込みます。トロイの木馬攻撃の2番目のアプローチでは、2種類の追加の正則化用語を使用して、不規則な形状とサイズのトリガーを生成します。攻撃の成功率と機能を使用して、攻撃のパフォーマンスを測定します。人間の知覚の不可視性の2つの新しい定義を紹介します。 1つは知覚的敵対性類似度スコア(PASS)によって概念化され、もう1つは学習済み知覚的イメージパッチ類似性(LPIPS)です。提案された非表示のバックドアは、攻撃者の攻撃成功率、通常のユーザーの機能を測定することにより、さまざまなDNNモデルと4つのデータセットMNIST、CIFAR-10、CIFAR-100、およびGTSRBでかなり効果的であることがわかります。管理者の非表示スコア。最後に、提案されている見えないバックドア攻撃は、Neural CleanseやTABORなどの最新のトロイの木馬バックドア検出アプローチを効果的に阻止できると主張します。
Deep neural networks (DNNs) have been proven vulnerable to backdoor attacks, where hidden features (patterns) trained to a normal model, which is only activated by some specific input (called triggers), trick the model into producing unexpected behavior. In this paper, we create covert and scattered triggers for backdoor attacks, invisible backdoors, where triggers can fool both DNN models and human inspection. We apply our invisible backdoors through two state-of-the-art methods of embedding triggers for backdoor attacks. The first approach on Badnets embeds the trigger into DNNs through steganography. The second approach of a trojan attack uses two types of additional regularization terms to generate the triggers with irregular shape and size. We use the Attack Success Rate and Functionality to measure the performance of our attacks. We introduce two novel definitions of invisibility for human perception; one is conceptualized by the Perceptual Adversarial Similarity Score (PASS) and the other is Learned Perceptual Image Patch Similarity (LPIPS). We show that the proposed invisible backdoors can be fairly effective across various DNN models as well as four datasets MNIST, CIFAR-10, CIFAR-100, and GTSRB, by measuring their attack success rates for the adversary, functionality for the normal users, and invisibility scores for the administrators. We finally argue that the proposed invisible backdoor attacks can effectively thwart the state-of-the-art trojan backdoor detection approaches, such as Neural Cleanse and TABOR.