ディープ ニューラル ネットワークの推論レイテンシを短縮し、メモリ フットプリントを削減するために、浮動小数点を低精度の整数に変換することにより、ディープ モデルの展開でモデルの量子化が広く採用されています。ただし、以前の方法 (量子化対応トレーニングやトレーニング後の量子化など) では、量子化モデルの微調整またはキャリブレーションのために元のデータが必要になるため、プライバシーやセキュリティのために元のデータにアクセスできない場合には適用できません。これにより、合成データ生成によるデータフリー量子化法が誕生します。現在のデータフリーの量子化方法は、モデルをより低いビットに量子化するときに、セマンティック機能のクラス間の分離可能性が低いために、依然として深刻なパフォーマンスの低下に悩まされています。この目的のために、ClusterQ と呼ばれる新しい効果的なデータフリーの量子化方法を提案します。これは、合成データ生成に特徴分布アライメントを利用します。セマンティック機能の高いクラス間分離性を得るために、機能分布統計をクラスター化および調整して、実際のデータの分布を模倣し、パフォーマンスの低下を軽減します。さらに、クラスごとのモード崩壊を解決するために、多様性の強化を組み込みます。また、指数移動平均を使用して各クラスターの重心を更新し、特徴分布をさらに改善します。 ImageNet データセットに対するさまざまなディープ モデル (ResNet-18 や MobileNet-V2 など) に基づく広範な実験は、提案された ClusterQ モデルが最先端のパフォーマンスを実現することを示しています。
To obtain lower inference latency and less memory footprint of deep neural networks, model quantization has been widely employed in deep model deployment, by converting the floating points to low-precision integers. However, previous methods (such as quantization aware training and post training quantization) require original data for the fine-tuning or calibration of quantized model, which makes them inapplicable to the cases that original data are not accessed due to privacy or security. This gives birth to the data-free quantization method with synthetic data generation. While current data-free quantization methods still suffer from severe performance degradation when quantizing a model into lower bit, caused by the low inter-class separability of semantic features. To this end, we propose a new and effective data-free quantization method termed ClusterQ, which utilizes the feature distribution alignment for synthetic data generation. To obtain high inter-class separability of semantic features, we cluster and align the feature distribution statistics to imitate the distribution of real data, so that the performance degradation is alleviated. Moreover, we incorporate the diversity enhancement to solve class-wise mode collapse. We also employ the exponential moving average to update the centroid of each cluster for further feature distribution improvement. Extensive experiments based on different deep models (e.g., ResNet-18 and MobileNet-V2) over the ImageNet dataset demonstrate that our proposed ClusterQ model obtains state-of-the-art performance.