Passive attention in artificial neural networks predicts human visual selectivity
過去10年間の機械学習の解釈可能性手法の開発により、人工ニューラルネットワーク(ANN)での分類とローカリゼーションに最も役立つ画像領域を観察するための新しいツールが提供されました。同じ地域が人間の観測者にとって同様に有益ですか? 78の新しい実験と6,610の参加者からのデータを使用して、受動的注意技術が、視覚弁別、空間的位置特定、認識可能性、自由観察、手がかりオブジェクト検索、および顕著性検索の固定。ガイド付きバックプロパゲーション法を使用してプローブされた比較的単純なANNアーキテクチャから派生した入力の視覚化は、人間の測定値の共同変動における共有コンポーネントの最良の予測子であることがわかります。これらの相関結果を、認識実験を使用した因果操作で検証します。 ANNアテンションマップでマスクされた画像は、高速認識実験において、コントロールマスクよりも人間が分類しやすいことを示しています。同様に、同じANNモデルでの認識パフォーマンスは、人間の視覚選択性マップを使用して入力画像をマスキングすることによって同様に影響を受けることがわかります。この作品は、人間の視覚のモデルとしての主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに貢献します:画像に含まれる情報に対する視覚的選択性の点でそれらの類似点と相違点を調べることによって。
Developments in machine learning interpretability techniques over the past decade have provided new tools to observe the image regions that are most informative for classification and localization in artificial neural networks (ANNs). Are the same regions similarly informative to human observers? Using data from 78 new experiments and 6,610 participants, we show that passive attention techniques reveal a significant overlap with human visual selectivity estimates derived from 6 distinct behavioral tasks including visual discrimination, spatial localization, recognizability, free-viewing, cued-object search, and saliency search fixations. We find that input visualizations derived from relatively simple ANN architectures probed using guided backpropagation methods are the best predictors of a shared component in the joint variability of the human measures. We validate these correlational results with causal manipulations using recognition experiments. We show that images masked with ANN attention maps were easier for humans to classify than control masks in a speeded recognition experiment. Similarly, we find that recognition performance in the same ANN models was likewise influenced by masking input images using human visual selectivity maps. This work contributes a new approach to evaluating the biological and psychological validity of leading ANNs as models of human vision: by examining their similarities and differences in terms of their visual selectivity to the information contained in images.
updated: Wed Jul 14 2021 21:21:48 GMT+0000 (UTC)
published: Wed Jul 14 2021 21:21:48 GMT+0000 (UTC)
