コンピュータビジョンの最新の機械学習モデルは、特定の視覚認識タスク、特にImageNetのようなデータセットで、人間の精度を上回っています。ただし、高精度はさまざまな方法で実現できます。機械学習システムによって検出される特定の決定関数は、システムが公開されるデータだけでなく、モデルの誘導バイアスによっても決定されます。これらのバイアスは、通常、特徴付けが困難です。この作業では、エラーのパターンを調べることにより、評価メトリックとしての精度を超えるニューラルネットワークモデルの詳細な動作分析の最近の傾向を追跡します。私たちの焦点は、一連の標準畳み込みニューラルネットワーク(CNN)と、最近提案された注意ベースのネットワークであるVision Transformer(ViT)の比較にあります。これは、CNNの並進不変制約を緩和し、より弱いセットのモデルを表します。誘導バイアスの。注意ベースのネットワークは、視覚タスクでCNNよりも高い精度を達成することが以前に示されています。エラーの一貫性をより詳細に調べるための新しいメトリックを使用して、それらのエラーも人間のエラーとより一貫していることを示します。これらの結果は、より人間らしい視覚モデルを構築することと、人間の視覚物体認識を理解することの両方に影響を及ぼします。
Modern machine learning models for computer vision exceed humans in accuracy on specific visual recognition tasks, notably on datasets like ImageNet. However, high accuracy can be achieved in many ways. The particular decision function found by a machine learning system is determined not only by the data to which the system is exposed, but also the inductive biases of the model, which are typically harder to characterize. In this work, we follow a recent trend of in-depth behavioral analyses of neural network models that go beyond accuracy as an evaluation metric by looking at patterns of errors. Our focus is on comparing a suite of standard Convolutional Neural Networks (CNNs) and a recently-proposed attention-based network, the Vision Transformer (ViT), which relaxes the translation-invariance constraint of CNNs and therefore represents a model with a weaker set of inductive biases. Attention-based networks have previously been shown to achieve higher accuracy than CNNs on vision tasks, and we demonstrate, using new metrics for examining error consistency with more granularity, that their errors are also more consistent with those of humans. These results have implications both for building more human-like vision models, as well as for understanding visual object recognition in humans.