arXiv reaDer
n-hot:2の累乗のニューラルネットワーク量子化のための効率的なビットレベルのスパース性
n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization
2の累乗(PoT)量子化は、リソースに制約のあるハードウェア上のディープニューラルネットワークのビット演算の数を減らします。ただし、PoT量子化は、表現能力が限られているため、精度が大幅に低下します。 DNNモデルは比較的複雑なタスク(たとえば、大規模なデータセットの分類やオブジェクト検出)に適用されているため、PoT量子化法の精度を向上させる必要があります。以前のいくつかの研究はPoT量子化の精度を改善しようと試みていますが、メモリ効率の高い方法で精度と計算コストのバランスをとる研究はありません。この問題に対処するために、効率的なPoT量子化スキームを提案します。ビットレベルのスパース性が導入されました。重み(またはアクティブ化)は、乗算のnシフト演算によって計算できる値に丸められます。また、演算ごとに足し算だけでなく引き算も可能です。さらに、2段階の微調整アルゴリズムを使用して、ビットレベルのスパース性を導入することによってトリガーされる精度の低下を回復します。 COCOデータセットのオブジェクト検出モデル(CenterNet、MobileNet-v2バックボーン)の実験結果は、提案された方法が、操作回数を約75%、モデルサイズを11.5%削減しながら、精度の低下を最大で0.3%抑制することを示しています。均一法と比較して。
Powers-of-two (PoT) quantization reduces the number of bit operations of deep neural networks on resource-constrained hardware. However, PoT quantization triggers a severe accuracy drop because of its limited representation ability. Since DNN models have been applied for relatively complex tasks (e.g., classification for large datasets and object detection), improvement in accuracy for the PoT quantization method is required. Although some previous works attempt to improve the accuracy of PoT quantization, there is no work that balances accuracy and computation costs in a memory-efficient way. To address this problem, we propose an efficient PoT quantization scheme. Bit-level sparsity is introduced; weights (or activations) are rounded to values that can be calculated by n shift operations in multiplication. We also allow not only addition but also subtraction as each operation. Moreover, we use a two-stage fine-tuning algorithm to recover the accuracy drop that is triggered by introducing the bit-level sparsity. The experimental results on an object detection model (CenterNet, MobileNet-v2 backbone) on the COCO dataset show that our proposed method suppresses the accuracy drop by 0.3% at most while reducing the number of operations by about 75% and model size by 11.5% compared to the uniform method.
updated: Mon Mar 22 2021 10:13:12 GMT+0000 (UTC)
published: Mon Mar 22 2021 10:13:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト