コンピュータビジョンと機械学習の従来の方法は、手書き数字や交通標識の認識などのタスクでの人間のパフォーマンスに匹敵しません。生物学的にもっともらしい深層人工ニューラルネットワークアーキテクチャは可能です。畳み込みの勝者がすべてを取るニューロンの小さな(多くの場合最小)受容野は大きなネットワークの深さをもたらし、網膜と視覚皮質の間の哺乳類で見られるのとほぼ同じくらいまばらに接続された神経層をもたらします。勝者ニューロンのみが訓練されます。いくつかのディープニューラルコラムは、さまざまな方法で前処理された入力のエキスパートになります。それらの予測は平均化されます。グラフィックカードを使用すると、すばやくトレーニングできます。非常に競争力のあるMNIST手書きベンチマークでは、私たちの方法が人間に近いパフォーマンスを達成する最初の方法です。交通標識認識ベンチマークでは、人間よりも2倍優れています。また、多くの一般的な画像分類ベンチマークで最先端を改善しています。
Traditional methods of computer vision and machine learning cannot match human performance on tasks such as the recognition of handwritten digits or traffic signs. Our biologically plausible deep artificial neural network architectures can. Small (often minimal) receptive fields of convolutional winner-take-all neurons yield large network depth, resulting in roughly as many sparsely connected neural layers as found in mammals between retina and visual cortex. Only winner neurons are trained. Several deep neural columns become experts on inputs preprocessed in different ways; their predictions are averaged. Graphics cards allow for fast training. On the very competitive MNIST handwriting benchmark, our method is the first to achieve near-human performance. On a traffic sign recognition benchmark it outperforms humans by a factor of two. We also improve the state-of-the-art on a plethora of common image classification benchmarks.