arXiv reaDer
目と目が合っていますか?画像操作下での人間と深い畳み込みニューラルネットワークにおける物体認識性能の比較
Seeing eye-to-eye? A comparison of object recognition performance in humans and deep convolutional neural networks under image manipulation
かなり長い間、深い畳み込みニューラルネットワーク(DCNN)は、オブジェクト認識における人間のベンチマークパフォーマンスに到達しました。そのため、計算論的神経科学と機械学習の分野は、人工視覚と生物学的視覚に多くの類似点と相違点があると考え始めています。この研究は、ImageNetデータセットの分類学習パラダイムにおける人間とフィードフォワードニューラルネットワーク間の視覚的コアオブジェクト認識パフォーマンスの動作比較を目的としています。この目的のために、人間の参加者(n = 65)は、さまざまなフィードフォワードDCNNに対してオンライン実験で競争しました。 7つの異なるサルのカテゴリの典型的な学習プロセスに基づいて設計されたアプローチには、自然な例を使用したトレーニングと検証のフェーズ、および斬新で経験の浅い形状と色の操作を使用したテストフェーズが含まれていました。精度の分析により、人間はすべての条件でDCNNを上回るだけでなく、形状、特に色の変化に対して大幅に優れた堅牢性を示すことが明らかになりました。さらに、行動パターンの正確な調査は、グループ間の独立した分類エラーを明らかにすることにより、これらの発見を浮き彫りにします。得られた結果は、操作された画像の視覚的なコアオブジェクト認識に関して、人間が人工フィードフォワードアーキテクチャと強く対照的であることを示しています。一般に、これらの調査結果は、適切な一般化能力の重要な要因としての再発を示唆する文献の増加と一致しています。
For a considerable time, deep convolutional neural networks (DCNNs) have reached human benchmark performance in object recognition. On that account, computational neuroscience and the field of machine learning have started to attribute numerous similarities and differences to artificial and biological vision. This study aims towards a behavioral comparison of visual core object recognition performance between humans and feedforward neural networks in a classification learning paradigm on an ImageNet data set. For this purpose, human participants (n = 65) competed in an online experiment against different feedforward DCNNs. The designed approach based on a typical learning process of seven different monkey categories included a training and validation phase with natural examples, as well as a testing phase with novel, unexperienced shape and color manipulations. Analyses of accuracy revealed that humans not only outperform DCNNs on all conditions, but also display significantly greater robustness towards shape and most notably color alterations. Furthermore, a precise examination of behavioral patterns highlights these findings by revealing independent classification errors between the groups. The obtained results show that humans contrast strongly with artificial feedforward architectures when it comes to visual core object recognition of manipulated images. In general, these findings are in line with a growing body of literature, that hints towards recurrence as a crucial factor for adequate generalization abilities.
updated: Sun Dec 13 2020 11:08:45 GMT+0000 (UTC)
published: Mon Jul 13 2020 10:26:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト