ニューラル ネットワークの量子化は、モデル圧縮の分野では非常に有望なソリューションですが、その結果の精度はトレーニング/微調整プロセスに大きく依存し、元のデータが必要になります。これは、膨大な計算コストと時間コストをもたらすだけでなく、プライバシーや機密情報の保護にも役立ちません。したがって、いくつかの最近の研究では、データフリーの量子化に焦点を当て始めています。ただし、データフリー量子化は、超低精度の量子化を扱う場合にはうまく機能しません。研究者はこの問題に部分的に対処するために合成データの生成方法を利用していますが、データ合成には多くの計算と時間が必要です。この論文では、データや微調整プロセスを必要とせずに超低精度量子化モデルのパフォーマンスを回復するデータフリー混合精度補償 (DF-MPC) 手法を提案します。低精度の量子化層によって引き起こされる量子化誤差は、高精度の量子化層の再構成によって復元できると仮定して、事前トレーニングされた完全精度モデルとその層ごとの混合精度の間の再構成損失を数学的に定式化します。量子化されたモデル。私たちの定式化に基づいて、特徴マップの再構成損失を最小限に抑えることによって、理論的に閉形式の解を導き出します。 DF-MPC はオリジナル/合成データを必要としないため、完全精度モデルを近似するためのより効率的な方法です。実験的に、当社の DF-MPC は、データや微調整プロセスを必要とせずに、最近の方法と比較して、超低精度の量子化モデルに対してより高い精度を達成できます。
Neural network quantization is a very promising solution in the field of model compression, but its resulting accuracy highly depends on a training/fine-tuning process and requires the original data. This not only brings heavy computation and time costs but also is not conducive to privacy and sensitive information protection. Therefore, a few recent works are starting to focus on data-free quantization. However, data-free quantization does not perform well while dealing with ultra-low precision quantization. Although researchers utilize generative methods of synthetic data to address this problem partially, data synthesis needs to take a lot of computation and time. In this paper, we propose a data-free mixed-precision compensation (DF-MPC) method to recover the performance of an ultra-low precision quantized model without any data and fine-tuning process. By assuming the quantized error caused by a low-precision quantized layer can be restored via the reconstruction of a high-precision quantized layer, we mathematically formulate the reconstruction loss between the pre-trained full-precision model and its layer-wise mixed-precision quantized model. Based on our formulation, we theoretically deduce the closed-form solution by minimizing the reconstruction loss of the feature maps. Since DF-MPC does not require any original/synthetic data, it is a more efficient method to approximate the full-precision model. Experimentally, our DF-MPC is able to achieve higher accuracy for an ultra-low precision quantized model compared to the recent methods without any data and fine-tuning process.