arXiv reaDer
畳み込みニューラル ネットワークにおける最大プーリング機能マップのシフト不変性について
On the Shift Invariance of Max Pooling Feature Maps in Convolutional Neural Networks
この論文では、画像分類のための畳み込みニューラルネットワークの数学的解釈可能性を改善することを目指しています。自然画像データセットでトレーニングすると、そのようなネットワークは、指向性ガボール フィルターによく似た最初の層のパラメーターを学習する傾向があります。離散ガボールのような畳み込みの特性を活用することにより、特定の条件下で、後続の最大プーリング演算子によって計算された特徴マップが複雑なガボールのような係数のモジュラスを近似する傾向があることを証明します。入力シフト。次に、これらのレイヤーのシフト不変性の確率的尺度を計算します。より正確には、周波数と方向に応じて、一部のフィルターが他のフィルターよりも安定した画像表現を生成する可能性が高いことを示します。離散ガボールのような分解の特定のケースである、デュアル ツリー ウェーブレット パケット変換に基づく決定論的特徴抽出器を検討することにより、理論を実験的に検証します。一方ではシフト不変性と、他方では複素弾性率との類似性との間に強い相関関係があることを示しています。
In this paper, we aim to improve the mathematical interpretability of convolutional neural networks for image classification. When trained on natural image datasets, such networks tend to learn parameters in the first layer that closely resemble oriented Gabor filters. By leveraging the properties of discrete Gabor-like convolutions, we prove that, under specific conditions, feature maps computed by the subsequent max pooling operator tend to approximate the modulus of complex Gabor-like coefficients, and as such, are stable with respect to certain input shifts. We then compute a probabilistic measure of shift invariance for these layers. More precisely, we show that some filters, depending on their frequency and orientation, are more likely than others to produce stable image representations. We experimentally validate our theory by considering a deterministic feature extractor based on the dual-tree wavelet packet transform, a particular case of discrete Gabor-like decomposition. We demonstrate a strong correlation between shift invariance on the one hand and similarity with complex modulus on the other hand.
updated: Mon Sep 19 2022 08:15:30 GMT+0000 (UTC)
published: Mon Sep 19 2022 08:15:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト