今日のコンピューター ビジョン モデルは、さまざまなビジョン タスクにわたって、人間または人間に近いレベルのパフォーマンスを実現しています。ただし、それらのアーキテクチャ、データ、および学習アルゴリズムは、人間の視覚を生み出すものとは多くの点で異なります。この論文では、ニューラルネットワークによって学習された表現と人間の概念表現との間の整列に影響を与える要因を調査します。人間の表現は、人間が 3 つの画像を提示され、奇数 1 アウトを選択する必要があった奇数 1 アウト トリプレット タスクの行動応答から推測されます。モデルの規模とアーキテクチャは、人間の行動反応との整合性に本質的に影響を与えませんが、トレーニング データセットと目的関数ははるかに大きな影響を与えることがわかりました。人間の概念表現のスパース ベイジアン モデルを使用して、2 つの類似した画像を奇数 1 アウトから区別する概念によってトリプレットを分割し、食べ物や動物などの一部の概念がニューラル ネットワーク表現で適切に表現されていることを発見しました。ロイヤルまたはスポーツ関連のオブジェクトはそうではありません。全体として、より大規模で多様なデータセットでトレーニングされたモデルは、ImageNet のみでトレーニングされたモデルよりも人間との整合性が向上していますが、人間が使用するものと一致する概念表現を使用してニューラル ネットワークをトレーニングするには、スケーリングだけでは不十分である可能性が高いことが示されています。
Today's computer vision models achieve human or near-human level performance across a wide variety of vision tasks. However, their architectures, data, and learning algorithms differ in numerous ways from those that give rise to human vision. In this paper, we investigate the factors that affect alignment between the representations learned by neural networks and human concept representations. Human representations are inferred from behavioral responses in an odd-one-out triplet task, where humans were presented with three images and had to select the odd-one-out. We find that model scale and architecture have essentially no effect on alignment with human behavioral responses, whereas the training dataset and objective function have a much larger impact. Using a sparse Bayesian model of human conceptual representations, we partition triplets by the concept that distinguishes the two similar images from the odd-one-out, finding that some concepts such as food and animals are well-represented in neural network representations whereas others such as royal or sports-related objects are not. Overall, although models trained on larger, more diverse datasets achieve better alignment with humans than models trained on ImageNet alone, our results indicate that scaling alone is unlikely to be sufficient to train neural networks with conceptual representations that match those used by humans.