arXiv reaDer
REx:データフリーの残差量子化誤差の拡張
REx: Data-Free Residual Quantization Error Expansion
ディープニューラルネットワーク(DNN)は、今日、コンピュータービジョンの世界に遍在しています。ただし、特にエッジデバイスで評価した場合、推論の計算コストが高くなります。この問題は通常、事後量子化、つまり、DNN値(重みと入力)を浮動小数点からint8、int4、または3進量子化に変換することで対処されます。この論文では、データ保護規則に準拠し、便利で高速に実行できる、事前トレーニング済みモデル用のデータフリー量子化アルゴリズムであるRExを提案します。まず、重みを残差量子化誤差の拡張として分解することにより、単純な線形量子化演算子を改善します。次に、スパースでより高い拡張次数とのビット単位の演算のトレードオフの数に対して、より良い精度を達成するために、予算化されたグループスパース性の定式化を提案します。第3に、このスパース展開を量子化ニューラルネットワークのアンサンブルで近似して、より効率的な並列化によって評価速度を劇的に向上できることを示します。 RExの効率の理論的保証と、ImageNet分類、オブジェクト検出、セマンティックセグメンテーションなどの複数のコンピュータービジョン問題に適用されるいくつかの一般的なDNNアーキテクチャの徹底的な経験的検証を提供します。特に、RExが既存の最先端のデータフリー量子化技術を大幅に上回っていることを示します。
Deep neural networks (DNNs) are nowadays ubiquitous in the computer vision landscape. However, they suffer from high computational costs in inference, particularly when evaluated on edge devices. This problem is generally addressed via post-hoc quantization, i.e. converting the DNN values (weights and inputs) from floating point into e.g. int8, int4 or ternary quantization. In this paper, we propose REx, a data-free quantization algorithm for pre-trained models that is compliant with data protection regulations, convenient and fast to execute. First, we improve upon the naive linear quantization operator by decomposing the weights as an expansion of residual quantization errors. Second, we propose a budgeted group-sparsity formulation to achieve better accuracy vs. number of bit-wise operation trade-offs with sparse, higher expansion orders. Third, we show that this sparse expansion can be approximated by an ensemble of quantized neural networks to dramatically improve the evaluation speed through more efficient parallelization. We provide theoretical guarantees of the efficiency of REx as well as a thorough empirical validation on several popular DNN architectures applied to multiple computer vision problems, e.g. ImageNet classification, object detection as well as semantic segmentation. In particular, we show that REx significantly outperforms existing state-of-the-art data-free quantization techniques.
updated: Mon Mar 28 2022 11:04:45 GMT+0000 (UTC)
published: Mon Mar 28 2022 11:04:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト