畳み込みニューラルネットワーク(CNN)は、過去数十年の間にコンピュータービジョンの分野で目覚ましい成功を収めています。 CNNの中核として、画像畳み込み演算は、CNNが画像関連のタスクで優れたパフォーマンスを達成するのに役立ちます。ただし、画像の畳み込みを実装して並列化することは困難です。本論文では、周波数領域で訓練できる新しいニューラルネットワークモデル、すなわちCEMNetを提案する。この研究の最も重要な動機は、相互相関定理に基づいて、非常に単純な要素ごとの乗算演算を使用して、周波数領域での画像の畳み込みを置き換えることができることです。さらに、過剰適合を軽減するための重み固定メカニズムを導入し、周波数領域でのバッチ正規化、リークReLU、およびドロップアウトの動作動作を分析して、CEMNetの対応するものを設計します。また、DFTによってもたらされる複雑な入力を処理するために、CEMNetの2つのブランチネットワーク構造を設計します。実験結果は、CEMNetが周波数領域で適切に機能し、MNISTおよびCIFAR-10データベースで良好なパフォーマンスを達成することを示しています。私たちの知る限り、CEMNetは、CIFAR-10データベースで70%以上の検証精度を達成する、フーリエドメインでトレーニングされた最初のモデルです。
Convolutional neural network (CNN) achieves impressive success in the field of computer vision during the past few decades. As the core of CNNs, image convolution operation helps CNNs to achieve good performance on image-related tasks. However, image convolution is hard to be implemented and parallelized. In this paper, we propose a novel neural network model, namely CEMNet, that can be trained in frequency domain. The most important motivation of this research is that we can use the very simple element-wise multiplication operation to replace the image convolution in frequency domain based on Cross-Correlation Theorem. We further introduce Weight Fixation Mechanism to alleviate over-fitting, and analyze the working behavior of Batch Normalization, Leaky ReLU and Dropout in frequency domain to design their counterparts for CEMNet. Also, to deal with complex inputs brought by DFT, we design two branch network structure for CEMNet. Experimental results imply that CEMNet works well in frequency domain, and achieve good performance on MNIST and CIFAR-10 databases. To our knowledge, CEMNet is the first model trained in Fourier Domain that achieves more than 70% validation accuracy on CIFAR-10 database.