arXiv reaDer
顔認識領域における畳み込みニューラルネットワークへの敵対的攻撃
Adversarial Attacks on Convolutional Neural Networks in Facial Recognition Domain
最近の多くの研究では、攻撃者が元のサンプルに摂動を加えて分類器がサンプルを誤って分類するという敵対的な例によって、ディープニューラルネットワーク(DNN)分類器がどのようにだまされる可能性があるかが示されています。 DNNを現実の世界で脆弱にする敵対的攻撃は、自動運転車、マルウェアフィルター、または生体認証システムにおいて深刻な脅威となります。この論文では、高速勾配符号法を適用して顔画像データセットに摂動を導入し、次に自分でトレーニングした別の分類器で出力をテストして、この方法の転送可能性を分析します。次に、顔認識におけるDNNの堅牢性をさらに評価するために、最小限の敵対的知識を想定して、顔画像データセットに対してさまざまなブラックボックス攻撃アルゴリズムを作成します。さまざまな画像歪み手法を試しながら、単一の最適なピクセルを大量に変更するか、すべてのピクセルを少量で変更するか、これら2つの攻撃アプローチを組み合わせることに焦点を当てます。私たちの単一ピクセル攻撃は、実際のクラスの分類器の信頼レベルの平均約15%の低下を達成しましたが、全ピクセル攻撃はより成功し、81.6%の誤分類率とともに、最大84%の平均信頼度の低下を達成しました。最高レベルの摂動でテストした攻撃の場合。これらの高レベルの摂動があっても、顔画像は人間が識別できるままでした。これらのノイズや摂動された画像が分類アルゴリズムをどのように妨害するかを理解することで、防御を意識した敵対的攻撃に対するDNNのトレーニング、および適応ノイズリダクション技術に貴重な進歩をもたらすことができます。私たちの研究が、特に顔認識領域において、DNNに対する敵対的攻撃とそれらに対抗する防御機構の研究を前進させるのに役立つことを願っています。
Numerous recent studies have demonstrated how Deep Neural Network (DNN) classifiers can be fooled by adversarial examples, in which an attacker adds perturbations to an original sample, causing the classifier to misclassify the sample. Adversarial attacks that render DNNs vulnerable in real life represent a serious threat in autonomous vehicles, malware filters, or biometric authentication systems. In this paper, we apply Fast Gradient Sign Method to introduce perturbations to a facial image dataset and then test the output on a different classifier that we trained ourselves, to analyze transferability of this method. Next, we craft a variety of different black-box attack algorithms on a facial image dataset assuming minimal adversarial knowledge, to further assess the robustness of DNNs in facial recognition. While experimenting with different image distortion techniques, we focus on modifying single optimal pixels by a large amount, or modifying all pixels by a smaller amount, or combining these two attack approaches. While our single-pixel attacks achieved about a 15% average decrease in classifier confidence level for the actual class, the all-pixel attacks were more successful and achieved up to an 84% average decrease in confidence, along with an 81.6% misclassification rate, in the case of the attack that we tested with the highest levels of perturbation. Even with these high levels of perturbation, the face images remained identifiable to a human. Understanding how these noised and perturbed images baffle the classification algorithms can yield valuable advances in the training of DNNs against defense-aware adversarial attacks, as well as adaptive noise reduction techniques. We hope our research may help to advance the study of adversarial attacks on DNNs and defensive mechanisms to counteract them, particularly in the facial recognition domain.
updated: Mon Feb 08 2021 07:43:45 GMT+0000 (UTC)
published: Thu Jan 30 2020 00:25:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト