arXiv reaDer
畳み込みニューラルネットワークと人間の脳における敵対的に摂動した画像の分離可能な神経表現
Dissociable neural representations of adversarially perturbed images in convolutional neural networks and the human brain
たたみ込みニューラルネットワーク(CNN)と人間の脳との間の驚くべき類似性にもかかわらず、CNNは依然として多くの視覚的タスクで人間に遅れをとっており、2つのシステム間にまだかなりの違いがあることを示しています。ここでは、敵対的なノイズ(AN)と敵対的な干渉(AI)の画像を利用して、2つのシステムでの神経表現と知覚結果の間の一貫性を定量化します。人間はAI画像を対応するカテゴリとして正常に認識できますが、AN画像は無意味なノイズとして認識します。対照的に、CNNはAN画像を正しく認識できますが、AI画像を驚くほど高い信頼度で誤ったカテゴリに誤って分類します。機能的磁気共鳴イメージングを使用して、人間の脳の定期的および敵対的な画像によって引き起こされる脳活動を測定し、それをプロトタイプのCNN-AlexNetの人工ニューロンの活動と比較します。人間の脳では、通常の画像と敵対的な画像との間の表現上の類似性が、すべての初期視覚領域における知覚的類似性を反映していることがわかります。ただし、AlexNetでは、敵対的な画像の神経表現は、すべての中間処理層のネットワーク出力と一致せず、知覚的類似性の神経基盤を提供していません。さらに、通常の画像でトレーニングされたボクセルエンコーディングモデルは、AI画像ではなくAN画像への神経応答に正常に一般化できることを示しています。表現と知覚の関係における人間の脳とAlexNetの間のこれらの顕著な違いは、将来のCNNが人間の脳の行動と内部の神経表現の両方をエミュレートする必要があることを示唆しています。
Despite the remarkable similarities between convolutional neural networks (CNN) and the human brain, CNNs still fall behind humans in many visual tasks, indicating that there still exist considerable differences between the two systems. Here, we leverage adversarial noise (AN) and adversarial interference (AI) images to quantify the consistency between neural representations and perceptual outcomes in the two systems. Humans can successfully recognize AI images as corresponding categories but perceive AN images as meaningless noise. In contrast, CNNs can correctly recognize AN images but mistakenly classify AI images into wrong categories with surprisingly high confidence. We use functional magnetic resonance imaging to measure brain activity evoked by regular and adversarial images in the human brain, and compare it to the activity of artificial neurons in a prototypical CNN-AlexNet. In the human brain, we find that the representational similarity between regular and adversarial images largely echoes their perceptual similarity in all early visual areas. In AlexNet, however, the neural representations of adversarial images are inconsistent with network outputs in all intermediate processing layers, providing no neural foundations for perceptual similarity. Furthermore, we show that voxel-encoding models trained on regular images can successfully generalize to the neural responses to AI images but not AN images. These remarkable differences between the human brain and AlexNet in the representation-perception relation suggest that future CNNs should emulate both behavior and the internal neural presentations of the human brain.
updated: Mon Jul 20 2020 01:28:40 GMT+0000 (UTC)
published: Sat Dec 22 2018 01:56:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト