ゼロ ショット量子化は、コストやプライバシーに関連する問題など、さまざまな理由でデータにアクセスできない場合に、軽量のディープ ニューラル ネットワークを開発するための有望なアプローチです。ゼロショット量子化スキームは、FP32 で事前トレーニングされたモデルの学習パラメーター (統計) を利用することで、学習パラメーター (μ と σ) と中間活性化の分布との間の距離を最小化することによって合成データを生成することに重点を置いています。その後、事前トレーニング済みのモデル (教師) から量子化されたモデル (生徒) に知識を抽出し、量子化されたモデルを合成データセットで最適化できるようにします。一般に、ゼロ ショット量子化は、データセットの合成とモデルの量子化という 2 つの主要な要素で構成されます。ただし、これまでのところ、ゼロ ショット量子化は主に、再トレーニングと同じくらいタスク固有の損失と長期的な最適化を必要とする量子化を意識したトレーニング方法のコンテキストで説明されてきました。したがって、ゼロショット量子化のためのトレーニング後の量子化スキームを導入します。これにより、高品質の量子化されたネットワークが、30 分でも数時間以内に生成されます。さらに、トレーニング後の量子化に適したデータを生成する \genie~ と呼ばれるフレームワークを提案します。 \genie によって合成されたデータを使用すると、実際のデータセットを使用せずに高品質の量子化モデルを生成できます。これは、少数ショットの量子化に匹敵します。また、量子化されたモデルのパフォーマンスを向上させるためのトレーニング後の量子化アルゴリズムも提案します。それらを組み合わせることで、既存のアプローチと比較して量子化パフォーマンスを大幅に改善しながら、ゼロショット量子化と少数ショット量子化の間のギャップを埋めることができます。つまり、独自の最先端のゼロ ショット量子化アプローチを取得できます。
Zero-shot quantization is a promising approach for developing lightweight deep neural networks when data is inaccessible owing to various reasons, including cost and issues related to privacy. By utilizing the learned parameters (statistics) of FP32-pre-trained models, zero-shot quantization schemes focus on generating synthetic data by minimizing the distance between the learned parameters (μ and σ) and distributions of intermediate activations. Subsequently, they distill knowledge from the pre-trained model (teacher) to the quantized model (student) such that the quantized model can be optimized with the synthetic dataset. In general, zero-shot quantization comprises two major elements: synthesizing datasets and quantizing models. However, thus far, zero-shot quantization has primarily been discussed in the context of quantization-aware training methods, which require task-specific losses and long-term optimization as much as retraining. We thus introduce a post-training quantization scheme for zero-shot quantization that produces high-quality quantized networks within a few hours on even half an hour. Furthermore, we propose a framework called \genie~that generates data suited for post-training quantization. With the data synthesized by \genie, we can produce high-quality quantized models without real datasets, which is comparable to few-shot quantization. We also propose a post-training quantization algorithm to enhance the performance of quantized models. By combining them, we can bridge the gap between zero-shot and few-shot quantization while significantly improving the quantization performance compared to that of existing approaches. In other words, we can obtain a unique state-of-the-art zero-shot quantization approach.