敵対的な例は、ニューラルネットワークモデルが人間と同じ視覚的特徴に敏感であるかどうかについて疑問を投げかけます。この論文では、まず、入力のクラス条件付き再構成に基づいて、敵対的な例または破損した画像を検出します。検出メカニズムを具体的に攻撃するために、誤分類と低い再構築エラーの両方を引き起こす再構築攻撃を提案します。この再構成攻撃は、検出されない敵対的な例を生成しますが、成功率ははるかに低くなります。これらすべての攻撃の中で、CapsNetsは常に畳み込みネットワークよりも優れたパフォーマンスを発揮することがわかります。次に、CapsNetsの敵の例を診断し、再構成攻撃の成功がソースクラスとターゲットクラスの視覚的な類似性に大きく関連していることを確認します。さらに、結果として生じる摂動により、入力画像が視覚的にターゲットクラスのように見えるため、敵対的ではなくなります。これは、CapsNetsが人間の知覚により整合した機能を使用し、敵対的な例によって提起された中心的な問題に対処する可能性があることを示唆しています。
Adversarial examples raise questions about whether neural network models are sensitive to the same visual features as humans. In this paper, we first detect adversarial examples or otherwise corrupted images based on a class-conditional reconstruction of the input. To specifically attack our detection mechanism, we propose the Reconstructive Attack which seeks both to cause a misclassification and a low reconstruction error. This reconstructive attack produces undetected adversarial examples but with much smaller success rate. Among all these attacks, we find that CapsNets always perform better than convolutional networks. Then, we diagnose the adversarial examples for CapsNets and find that the success of the reconstructive attack is highly related to the visual similarity between the source and target class. Additionally, the resulting perturbations can cause the input image to appear visually more like the target class and hence become non-adversarial. This suggests that CapsNets use features that are more aligned with human perception and have the potential to address the central issue raised by adversarial examples.