ハードウェア要件を満たし、長時間の再トレーニングを必要としない、ディープ ニューラル ネットワーク用の Power-of-Two 低ビット トレーニング後量子化 (PTQ) メソッドを導入します。 2 のべき乗量子化は、量子化と逆量子化によって導入された乗算を、多くの効率的なアクセラレータで採用されているビット シフトに変換できます。ただし、2 のべき乗スケール ファクターは候補値が少なく、丸め誤差またはクリッピング誤差が多くなります。 RAPQ と呼ばれる新しい 2 乗 PTQ フレームワークを提案します。これは、レイヤーごとに静的に決定する代わりに、ネットワーク全体の 2 乗スケールを動的に調整します。理論的には、ネットワーク全体の丸め誤差とクリッピング誤差をトレードオフできます。一方、RAPQ での再構成方法は、ユニットごとの BN 情報に基づいています。 ImageNet での広範な実験により、提案された方法の優れたパフォーマンスが証明されます。付属品がなければ、RAPQ は、重み INT2 アクティベーション INT4 を使用して、ResNet-18 と MobileNetV2 でそれぞれ 65% と 48% の精度に達することができます。私たちは、特に低ビット PTQ に対して、より制約はあるがハードウェアに適した 2 のべき乗量子化スキームを提案し、SOTA PTQ 法とほぼ同じ精度を達成できることを証明した最初の企業です。コードを公開しました。
We introduce a Power-of-Two low-bit post-training quantization(PTQ) method for deep neural network that meets hardware requirements and does not call for long-time retraining. Power-of-Two quantization can convert the multiplication introduced by quantization and dequantization to bit-shift that is adopted by many efficient accelerators. However, the Power-of-Two scale factors have fewer candidate values, which leads to more rounding or clipping errors. We propose a novel Power-of-Two PTQ framework, dubbed RAPQ, which dynamically adjusts the Power-of-Two scales of the whole network instead of statically determining them layer by layer. It can theoretically trade off the rounding error and clipping error of the whole network. Meanwhile, the reconstruction method in RAPQ is based on the BN information of every unit. Extensive experiments on ImageNet prove the excellent performance of our proposed method. Without bells and whistles, RAPQ can reach accuracy of 65% and 48% on ResNet-18 and MobileNetV2 respectively with weight INT2 activation INT4. We are the first to propose the more constrained but hardware-friendly Power-of-Two quantization scheme for low-bit PTQ specially and prove that it can achieve nearly the same accuracy as SOTA PTQ method. The code was released.