畳み込みニューラルネットワーク(CNN)は、過去数十年の間にコンピュータービジョンで目覚ましい成功を収めてきました。 CNNのコアとして、画像畳み込み操作は、CNNが画像関連のタスクで優れたパフォーマンスを得るのに役立ちます。ただし、画像の畳み込みを実装して並列化することは困難です。この論文は、周波数領域で訓練することができる新しいニューラルネットワークモデル、すなわちCEMNetを提案します。この研究の最も重要な動機は、相互相関定理に基づいて、単純な要素ごとの乗算演算を使用して、周波数領域での画像の畳み込みを置き換えることができることです。さらに、過剰適合の問題を軽減するための重み固定メカニズムを導入し、周波数領域でのバッチ正規化、リークReLU、およびドロップアウトの動作動作を分析して、CEMNetの対応するものを設計します。また、離散フーリエ変換によってもたらされる複雑な入力を処理するために、CEMNet用の2分岐ネットワーク構造を設計します。実験結果は、CEMNetがMNISTおよびCIFAR-10データベースで優れたパフォーマンスを達成していることを示しています。私たちの知る限り、CEMNetは、CIFAR-10データベースで70%を超える検証精度を達成する、フーリエドメインでトレーニングされた最初のモデルです。
Convolutional neural network (CNN) has achieved impressive success in computer vision during the past few decades. As the core of CNNs, the image convolution operation helps CNNs to get good performance on image-related tasks. However, the image convolution is hard to be implemented and parallelized. This paper proposes a novel neural network model, namely CEMNet, which can be trained in the frequency domain. The most important motivation of this research is that we can use the straightforward element-wise multiplication operation to replace the image convolution in the frequency domain based on the Cross-Correlation Theorem. We further introduce a Weight Fixation mechanism to alleviate the problem of over-fitting, and analyze the working behavior of Batch Normalization, Leaky ReLU, and Dropout in the frequency domain to design their counterparts for CEMNet. Also, to deal with complex inputs brought by Discrete Fourier Transform, we design a two-branches network structure for CEMNet. Experimental results imply that CEMNet achieves good performance on MNIST and CIFAR-10 databases. To the best of our knowledge, CEMNet is the first model trained in Fourier Domain that achieves more than 70% validation accuracy on CIFAR-10 database.