このホワイトペーパーでは、基本的な質問に対処します。現在の自己監視型視覚表現学習アルゴリズムは、人間と比較してどれほど優れているのでしょうか。より具体的には、ImageNetなどの複雑で現実的な視覚オブジェクト認識タスクで人間レベルのパフォーマンスを達成するために、これらのアルゴリズムはどのくらいの「人間のような」自然な視覚体験を必要としますか?スケーリング実験を使用して、ここで答えは人間の寿命よりも数桁長いと推定します。通常、100万年から10億年の自然な視覚的経験(使用するアルゴリズムによって異なります)です。 ImageNetから派生した堅牢性ベンチマークで、人間レベルのパフォーマンスを達成するためのさらに大きな見積もりを取得します。これらの推定値の正確な値は、いくつかの基礎となる仮定に敏感ですが、最も楽観的なシナリオでも、人間の寿命よりも桁違いに大きいままです。見積もりを取り巻く主な注意事項と、これらの驚くべき結果の意味について説明します。
This paper addresses a fundamental question: how good are our current self-supervised visual representation learning algorithms relative to humans? More concretely, how much "human-like" natural visual experience would these algorithms need in order to reach human-level performance in a complex, realistic visual object recognition task such as ImageNet? Using a scaling experiment, here we estimate that the answer is several orders of magnitude longer than a human lifetime: typically on the order of a million to a billion years of natural visual experience (depending on the algorithm used). We obtain even larger estimates for achieving human-level performance in ImageNet-derived robustness benchmarks. The exact values of these estimates are sensitive to some underlying assumptions, however even in the most optimistic scenarios they remain orders of magnitude larger than a human lifetime. We discuss the main caveats surrounding our estimates and the implications of these surprising results.