視覚認識と分類のアプリケーションにおけるディープたたみ込みニューラルネットワーク(DCNN)の成功を考えると、DCNNが真直度、凸性、左/右、前面/背面、相対サイズなどの空間概念も学習できるかどうかをテストするのは面倒です、アスペクト比、ポリゴンなど、シンプルでありながら空間的な推論に不可欠なこれらの概念のさまざまな視覚的な例から。残念なことに、認知心理学のタイプの広範な実験は、データ駆動型ディープラーニング(DL)が視覚的表現の表面的な変化を見通すことができず、抽象化で空間概念を把握できないことを示しています。失敗の根本的な原因は、ニューラルネットワーク自体の計算モデルではなく、学習方法論であることが判明しました。タスク固有の畳み込みカーネルを組み込むことにより、トレーニングセットの同じ分布から描画されていない入力画像に一般化できる空間認識タスクのDCNNを構築できます。この作業は、事前に組み込まれた事前情報または機能がないと、DCCNが基本的なレベルで空間認知タスクに失敗する可能性があるという注意を喚起します。
Given the success of the deep convolutional neural networks (DCNNs) in applications of visual recognition and classification, it would be tantalizing to test if DCNNs can also learn spatial concepts, such as straightness, convexity, left/right, front/back, relative size, aspect ratio, polygons, etc., from varied visual examples of these concepts that are simple and yet vital for spatial reasoning. Much to our dismay, extensive experiments of the type of cognitive psychology demonstrate that the data-driven deep learning (DL) cannot see through superficial variations in visual representations and grasp the spatial concept in abstraction. The root cause of failure turns out to be the learning methodology, not the computational model of the neural network itself. By incorporating task-specific convolutional kernels, we are able to construct DCNNs for spatial cognition tasks that can generalize to input images not drawn from the same distribution of the training set. This work raises a precaution that without manually-incorporated priors or features DCCNs may fail spatial cognitive tasks at rudimentary level.