Deep Nets: What have they ever done for Vision?
これは、ビジョンのためのディープネットの長所と短所についての意見書です。それらは、人工知能における最近の巨大な進歩の中心であり、認知科学および神経科学においてますます重要になっています。彼らは多くの成功を収めてきましたが、いくつかの制限もあり、彼らの内部の働きについての理解は限られています。現在、Deep Netは、ベンチマークデータセットを使用した特定の視覚タスクで非常に優れたパフォーマンスを発揮しますが、人間の視覚システムよりも汎用性が低く、柔軟性があり、適応性がありません。現在の形のディープネットは、コンピュータビジョンの根本的な問題、つまり、自然画像の非常に複雑なものによって引き起こされる組み合わせ爆発にどのように対処するかを克服し、視覚シーンの豊富な理解を得ることができない可能性が高いと主張します。人間の視覚は達成します。この組み合わせ爆発は、「ビッグデータでは不十分」であり、パフォーマンスのベンチマークとビジョンアルゴリズムの評価の方法を再考する必要がある体制に私たちを連れて行くと主張します。ビジョンアルゴリズムが実際のアプリケーションでますます使用されるようになるにつれて、パフォーマンス評価は単なる学術的な演習ではなく、現実の世界で重要な結果をもたらすことを強調します。 Deep Netの文献全体を確認することは現実的ではないため、文献へのエントリポイントとして意図された限られた範囲のトピックと参照に限定します。このホワイトペーパーで表現されている見解は私たち自身のものであり、必ずしもコンピュータビジョンコミュニティの他の人の見解を表すものではありません。
This is an opinion paper about the strengths and weaknesses of Deep Nets for vision. They are at the heart of the enormous recent progress in artificial intelligence and are of growing importance in cognitive science and neuroscience. They have had many successes but also have several limitations and there is limited understanding of their inner workings. At present Deep Nets perform very well on specific visual tasks with benchmark datasets but they are much less general purpose, flexible, and adaptive than the human visual system. We argue that Deep Nets in their current form are unlikely to be able to overcome the fundamental problem of computer vision, namely how to deal with the combinatorial explosion, caused by the enormous complexity of natural images, and obtain the rich understanding of visual scenes that the human visual achieves. We argue that this combinatorial explosion takes us into a regime where "big data is not enough" and where we need to rethink our methods for benchmarking performance and evaluating vision algorithms. We stress that, as vision algorithms are increasingly used in real world applications, that performance evaluation is not merely an academic exercise but has important consequences in the real world. It is impractical to review the entire Deep Net literature so we restrict ourselves to a limited range of topics and references which are intended as entry points into the literature. The views expressed in this paper are our own and do not necessarily represent those of anybody else in the computer vision community.
updated: Wed Nov 25 2020 15:34:56 GMT+0000 (UTC)
published: Thu May 10 2018 15:43:44 GMT+0000 (UTC)
