今日のコンピューター ビジョン モデルは、さまざまなビジョン タスクにわたって、人間または人間に近いレベルのパフォーマンスを実現しています。ただし、それらのアーキテクチャ、データ、および学習アルゴリズムは、人間の視覚を生み出すものとは多くの点で異なります。この論文では、ニューラルネットワークによって学習された表現と、行動反応から推測された人間の精神的表現との間の整合に影響を与える要因を調査します。モデルの規模とアーキテクチャは、人間の行動反応との整合性に本質的に影響を与えませんが、トレーニング データセットと目的関数の両方がはるかに大きな影響を与えることがわかりました。これらの調査結果は、2 つの異なるタスクを使用して収集された人間の類似性判断の 3 つのデータセットで一貫しています。 1 つのデータセットからの行動応答から学習したニューラル ネットワーク表現の線形変換により、他の 2 つのデータセットに対する人間の類似性判断との整合性が大幅に向上します。さらに、食品や動物などの人間の概念の一部はニューラル ネットワークで適切に表現されていますが、王室やスポーツ関連のオブジェクトなどはそうではありません。全体として、より大規模で多様なデータセットでトレーニングされたモデルは、ImageNet のみでトレーニングされたモデルよりも人間との整合性が向上していますが、人間が使用するものと一致する概念表現を使用してニューラル ネットワークをトレーニングするには、スケーリングだけでは不十分である可能性が高いことが示されています。
Today's computer vision models achieve human or near-human level performance across a wide variety of vision tasks. However, their architectures, data, and learning algorithms differ in numerous ways from those that give rise to human vision. In this paper, we investigate the factors that affect the alignment between the representations learned by neural networks and human mental representations inferred from behavioral responses. We find that model scale and architecture have essentially no effect on the alignment with human behavioral responses, whereas the training dataset and objective function both have a much larger impact. These findings are consistent across three datasets of human similarity judgments collected using two different tasks. Linear transformations of neural network representations learned from behavioral responses from one dataset substantially improve alignment with human similarity judgments on the other two datasets. In addition, we find that some human concepts such as food and animals are well-represented by neural networks whereas others such as royal or sports-related objects are not. Overall, although models trained on larger, more diverse datasets achieve better alignment with humans than models trained on ImageNet alone, our results indicate that scaling alone is unlikely to be sufficient to train neural networks with conceptual representations that match those used by humans.