arXiv reaDer
三元量子化の剪定
Pruning Ternary Quantization
推論時間、モデルサイズ、および精度は、モデルの詳細圧縮における3つの重要な要素です。これらすべてを同時に最適化することは困難であるため、既存の作業のほとんどは、これら3つの重要な要素に個別に対処しています。たとえば、低ビット量子化は、より高速なモデルを取得することを目的としています。重み共有量子化は、圧縮率と精度を向上させることを目的としています。混合精度量子化は、精度と推論時間のバランスを取ることを目的としています。ビット幅、モデルサイズ、および精度を同時に最適化するために、プルーニング3進量子化(PTQ)を提案します。これは、シンプルで効果的な対称3進量子化手法です。 L2正規化、剪定、および重み減衰項を統合して、量子化中の勾配推定量の重みの不一致を減らし、高度に圧縮された3項重みを生成します。私たちの方法は、最高のテスト精度と最高の圧縮率をもたらします。たとえば、ImageNetデータセットでわずか4%の精度低下で、939kb(49×)の2ビット3値ResNet-18モデルを生成します。 170MBのマスクR-CNNを5MB(34×)に圧縮し、平均精度はわずか2.8%低下します。私たちの方法は、ResNet-18、ResNet-50、MobileNetV2などのさまざまなネットワーク構造を使用した画像分類、オブジェクト検出/セグメンテーションタスクで検証されています。
Inference time, model size, and accuracy are three key factors in deep model compression. Most of the existing work addresses these three key factors separately as it is difficult to optimize them all at the same time. For example, low-bit quantization aims at obtaining a faster model; weight sharing quantization aims at improving compression ratio and accuracy; and mixed-precision quantization aims at balancing accuracy and inference time. To simultaneously optimize bit-width, model size, and accuracy, we propose pruning ternary quantization (PTQ): a simple, effective, symmetric ternary quantization method. We integrate L2 normalization, pruning, and the weight decay term to reduce the weight discrepancy in the gradient estimator during quantization, thus producing highly compressed ternary weights. Our method brings the highest test accuracy and the highest compression ratio. For example, it produces a 939kb (49×) 2bit ternary ResNet-18 model with only 4% accuracy drop on the ImageNet dataset. It compresses 170MB Mask R-CNN to 5MB (34×) with only 2.8% average precision drop. Our method is verified on image classification, object detection/segmentation tasks with different network structures such as ResNet-18, ResNet-50, and MobileNetV2.
updated: Fri Jul 14 2023 22:37:31 GMT+0000 (UTC)
published: Fri Jul 23 2021 02:18:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト