arXiv reaDer
ディープネットワークにおけるクラス多様体への敵対的な例の近接性の調査
Examining the Proximity of Adversarial Examples to Class Manifolds in Deep Networks
ディープニューラルネットワークは、複数の分野で卓越したパフォーマンスを実現します。ただし、適切なトレーニングの後、敵対的な例(AE)に対する固有の脆弱性に悩まされます。この作業では、隠れ層でのAEのアクティブ化を分析することにより、AEの内部表現に光を当てます。さまざまなタイプのAEをテストします。各AEは、特定のノルム制約を使用して作成されます。これは、視覚的な外観に影響を与え、最終的にはトレーニングされたネットワークでの動作に影響を与えます。画像分類タスク(MNISTおよびCIFAR-10)での結果は、内部表現のクラス固有の多様体への近接性を比較すると、個々のタイプのAE間の質的な違いを明らかにしています。ネットワーク全体の次元の変化に関係なく、クラス固有の多様体までの距離を比較するために使用できる2つの方法を提案します。これらの方法を使用して、ニューラルネットワークの最後の隠れ層でさえも、敵対者の一部が必ずしも正しいクラスの多様体の近接を離れないことを一貫して確認します。次に、UMAP視覚化手法を使用して、クラスのアクティブ化を2D空間に投影します。結果は、個々のAEのアクティブ化がテストセットのアクティブ化と絡み合っていることを示しています。ただし、これは、ごみクラスと呼ばれる細工された入力のグループには当てはまりません。また、ソフト最近傍損失を使用して数値的に設定されたテストで、敵対者のエンタングルメントを確認します。
Deep neural networks achieve remarkable performance in multiple fields. However, after proper training they suffer from an inherent vulnerability against adversarial examples (AEs). In this work we shed light on inner representations of the AEs by analysing their activations on the hidden layers. We test various types of AEs, each crafted using a specific norm constraint, which affects their visual appearance and eventually their behavior in the trained networks. Our results in image classification tasks (MNIST and CIFAR-10) reveal qualitative differences between the individual types of AEs, when comparing their proximity to the class-specific manifolds on the inner representations. We propose two methods that can be used to compare the distances to class-specific manifolds, regardless of the changing dimensions throughout the network. Using these methods, we consistently confirm that some of the adversarials do not necessarily leave the proximity of the manifold of the correct class, not even in the last hidden layer of the neural network. Next, using UMAP visualisation technique, we project the class activations to 2D space. The results indicate that the activations of the individual AEs are entangled with the activations of the test set. This, however, does not hold for a group of crafted inputs called the rubbish class. We also confirm the entanglement of adversarials with the test set numerically using the soft nearest neighbour loss.
updated: Tue Apr 12 2022 12:55:37 GMT+0000 (UTC)
published: Tue Apr 12 2022 12:55:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト