畳み込みニューラルネットワーク(CNN)は、さまざまな分野(視覚、音声、グラフ、医療画像など)での多くの最先端の分類問題の成功に極めて重要です。これらのドメイン内の共通点は、データ内での階層的で空間的に凝集したローカルからグローバルへの相互作用の存在です。 2次元画像の場合、このような相互作用により、ピクセルデータとピクセルの基本的な空間的順序との間に先験的な関係が生じる場合があります。たとえば、自然画像では、隣接するピクセルは、より離れている非隣接ピクセルよりも類似した値を含む可能性が高くなります。そのために、入力データ(2D)がさまざまなスケールで基礎となる空間的順序に従う程度を定量化する、空間的順序性と呼ばれる統計メトリックを提案します。私たちの実験では、主に、畳み込み層をCNNに追加すると、より高いスケールでの空間的順序のデータが損なわれる可能性があることがわかりました。また、CNN特徴マップの空間的秩序は、トレーニングの初期段階で同期して増加することを非常に直感に反して観察し、特徴マップの空間的秩序が低下し始めた後にのみ検証パフォーマンスが向上します。最後に、ネットワークウェイトの空間的順序性の理論的分析(および経験的検証)を提示します。ここでは、より小さいカーネルサイズを使用すると、空間的順序性の大きいカーネルにつながり、逆の場合もあります。
Convolutional Neural Networks (CNN) have been pivotal to the success of many state-of-the-art classification problems, in a wide variety of domains (for e.g. vision, speech, graphs and medical imaging). A commonality within those domains is the presence of hierarchical, spatially agglomerative local-to-global interactions within the data. For two-dimensional images, such interactions may induce an a priori relationship between the pixel data and the underlying spatial ordering of the pixels. For instance in natural images, neighboring pixels are more likely contain similar values than non-neighboring pixels which are further apart. To that end, we propose a statistical metric called spatial orderness, which quantifies the extent to which the input data (2D) obeys the underlying spatial ordering at various scales. In our experiments, we mainly find that adding convolutional layers to a CNN could be counterproductive for data bereft of spatial order at higher scales. We also observe, quite counter-intuitively, that the spatial orderness of CNN feature maps show a synchronized increase during the intial stages of training, and validation performance only improves after spatial orderness of feature maps start decreasing. Lastly, we present a theoretical analysis (and empirical validation) of the spatial orderness of network weights, where we find that using smaller kernel sizes leads to kernels of greater spatial orderness and vice-versa.