arXiv reaDer
Non-Structured DNN Weight Pruning -- Is It Beneficial in Any Platform?
 大規模なディープニューラルネットワーク(DNN)モデルは、算術演算またはSRAM動作よりもオフチップDRAMアクセスのエネルギー消費が大幅に多いため、エネルギー効率に対する重要な課題となります。 2つの主なアプローチにより、モデル圧縮に関する集中的な研究を促進します。重みプルーニングは、重みの数の冗長性を活用し、非構造化で実行できます。柔軟性が高く、プルーニングレートが高くなりますが、不規則な重みまたは構造化された方法によるインデックスアクセスが発生し、低いプルーニングレートで完全なマトリックス構造が維持されます。ウェイト量子化は、ウェイトのビット数の冗長性を活用します。プルーニングと比較して、量子化はハードウェアにはるかに優しく、FPGAおよびASIC実装の「必須」ステップになりました。このペーパーは、この質問に対する決定的な回答を初めて提供します。最初に、最近提案された結合重みプルーニングおよび量子化フレームワークであるADMM-NNを拡張および強化することにより、ADMM-NN-Sを構築します。第二に、ストレージと計算効率の両方の観点から、非構造化および構造化プルーニングの公正かつ根本的な比較のための方法論を開発します。 ADMM-NN-Sは、一貫して従来技術よりも優れていることを示しています。(i)LeNet-5、AlexNet、ResNet-50でそれぞれ348倍、36倍、および8倍の全体的な重量枝刈りを達成し、精度損失はほとんどありません。 ; (ii)多くの場合、最初の完全に2値化された(すべてのレイヤーに対して)DNNの精度が無損失であることを実証します。これらの結果は、本研究の強力なベースラインと信頼性を提供します。提案された比較フレームワークに基づいて、同じ精度と量子化で、結果は、非構造化プルーニングがストレージと計算効率の両方の点で競争力がないことを示しています。したがって、非構造化プルーニングは有害と見なされます。非構造化スパース性のDNN推論の加速を継続しないよう、コミュニティにお願いします。
Large deep neural network (DNN) models pose the key challenge to energy efficiency due to the significantly higher energy consumption of off-chip DRAM accesses than arithmetic or SRAM operations. It motivates the intensive research on model compression with two main approaches. Weight pruning leverages the redundancy in the number of weights and can be performed in a non-structured, which has higher flexibility and pruning rate but incurs index accesses due to irregular weights, or structured manner, which preserves the full matrix structure with lower pruning rate. Weight quantization leverages the redundancy in the number of bits in weights. Compared to pruning, quantization is much more hardware-friendly, and has become a "must-do" step for FPGA and ASIC implementations. This paper provides a definitive answer to the question for the first time. First, we build ADMM-NN-S by extending and enhancing ADMM-NN, a recently proposed joint weight pruning and quantization framework. Second, we develop a methodology for fair and fundamental comparison of non-structured and structured pruning in terms of both storage and computation efficiency. Our results show that ADMM-NN-S consistently outperforms the prior art: (i) it achieves 348x, 36x, and 8x overall weight pruning on LeNet-5, AlexNet, and ResNet-50, respectively, with (almost) zero accuracy loss; (ii) we demonstrate the first fully binarized (for all layers) DNNs can be lossless in accuracy in many cases. These results provide a strong baseline and credibility of our study. Based on the proposed comparison framework, with the same accuracy and quantization, the results show that non-structrued pruning is not competitive in terms of both storage and computation efficiency. Thus, we conclude that non-structured pruning is considered harmful. We urge the community not to continue the DNN inference acceleration for non-structured sparsity.
updated: Tue Jan 07 2020 19:43:16 GMT+0000 (UTC)
published: Wed Jul 03 2019 20:27:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト