arXiv reaDer
周波数の正則化: 畳み込みニューラル ネットワークの情報の冗長性の制限
Frequency Regularization: Restricting Information Redundancy of Convolutional Neural Networks
畳み込みニューラル ネットワークは、多くのコンピューター ビジョン タスクで印象的な結果を示しています。ただし、これらのネットワークのサイズが大きくなると、多数のネットワーク パラメータに起因する情報過負荷が懸念されます。この論文では、周波数ドメインでネットワークパラメータの非ゼロ要素を制限するために、周波数正則化を提案します。提案されたアプローチはテンソル レベルで動作し、ほぼすべてのネットワーク アーキテクチャに適用できます。具体的には、パラメーターのテンソルは周波数領域で維持され、テンソル要素をゼロにジグザグに設定することで高周波成分を除去できます。次に、逆離散コサイン変換 (IDCT) を使用して、ネットワーク トレーニング中に行列演算用の空間テンソルを再構築します。画像の高周波成分はそれほど重要ではないことが知られているため、提案された周波数正則化を使用してネットワークをトレーニングすると、これらのパラメーターの大部分をゼロに設定できます。 LeNet、Alexnet、VGG、Resnet、ViT、UNet、GAN、VAE など、さまざまな最先端のネットワーク アーキテクチャに関する包括的な評価により、提案された周波数正則化の有効性が実証されています。非常にわずかな精度の低下 (2% 未満) の条件下では、0.4M パラメーターの LeNet5 は 776 個の float16 数値 (1100 倍以上) でしか表現できず、34M パラメーターの UNet は 759 個の float16 数値でしか表現できません。 (80000倍以上)。
Convolutional neural networks have demonstrated impressive results in many computer vision tasks. However, the increasing size of these networks raises concerns about the information overload resulting from the large number of network parameters. In this paper, we propose Frequency Regularization to restrict the non-zero elements of the network parameters in frequency domain. The proposed approach operates at the tensor level, and can be applied to almost all network architectures. Specifically, the tensors of parameters are maintained in the frequency domain, where high frequency components can be eliminated by zigzag setting tensor elements to zero. Then, the inverse discrete cosine transform (IDCT) is used to reconstruct the spatial tensors for matrix operations during network training. Since high frequency components of images are known to be less critical, a large proportion of these parameters can be set to zero when networks are trained with the proposed frequency regularization. Comprehensive evaluations on various state-of-the-art network architectures, including LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, and VAE, demonstrate the effectiveness of the proposed frequency regularization. Under the condition of a very small accuracy decrease (less than 2%), a LeNet5 with 0.4M parameters can be represented by only 776 float16 numbers(over 1100×), and a UNet with 34M parameters can be represented by only 759 float16 numbers (over 80000×).
updated: Thu Apr 20 2023 02:24:03 GMT+0000 (UTC)
published: Mon Apr 17 2023 03:32:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト