arXiv reaDer
正確なエッジコンピューティングのためのディープニューラルネットワークの量子化
Quantization of Deep Neural Networks for Accurate Edge Computing
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで人間の専門家のパフォーマンスを超えて、近年大きな可能性を示しています。ただし、サイズが大きいため、通常、重みの量子化や剪定などの圧縮手法は、エッジに収容する前に適用されます。量子化はパフォーマンスの低下につながると一般に考えられており、多くの既存の研究では、精度の低下を最小限に抑えることを目的とした量子化戦略が検討されています。この論文では、本質的に重み表現に正則化を課す定量化が、精度の向上に役立つ場合があると主張します。生物医学的画像セグメンテーションのための完全接続ネットワーク(FCN)、ImageNetでの画像分類のための畳み込みニューラルネットワーク(CNN)、自動音声認識のためのリカレントニューラルネットワーク(RNN)、および実験の3つの広く使用されているアプリケーションで包括的な実験を行います。結果は、量子化により、3つのアプリケーションでそれぞれ3.5倍から6.4倍のメモリ削減により、精度が1%、1.95%、4.23%向上することを示しています。
Deep neural networks (DNNs) have demonstrated their great potential in recent years, exceeding the per-formance of human experts in a wide range of applications. Due to their large sizes, however, compressiontechniques such as weight quantization and pruning are usually applied before they can be accommodated onthe edge. It is generally believed that quantization leads to performance degradation, and plenty of existingworks have explored quantization strategies aiming at minimum accuracy loss. In this paper, we argue thatquantization, which essentially imposes regularization on weight representations, can sometimes help toimprove accuracy. We conduct comprehensive experiments on three widely used applications: fully con-nected network (FCN) for biomedical image segmentation, convolutional neural network (CNN) for imageclassification on ImageNet, and recurrent neural network (RNN) for automatic speech recognition, and experi-mental results show that quantization can improve the accuracy by 1%, 1.95%, 4.23% on the three applicationsrespectively with 3.5x-6.4x memory reduction.
updated: Thu Oct 14 2021 07:14:14 GMT+0000 (UTC)
published: Sun Apr 25 2021 02:05:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト