最適化された低ビット精度のターゲットに向けてDNNトレーニングをガイドし、8ビット精度未満の極端な圧縮レベルに到達するための量子化ガイドトレーニング(QGT)メソッドを提案します。標準の量子化対応トレーニング(QAT)アプローチとは異なり、QGTはカスタマイズされた正則化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を奨励します。このアプローチの主な利点の1つは、圧縮のボトルネックを特定できることです。ビジョンデータセットの最先端のモデルアーキテクチャを使用してQGTを検証します。また、浮動小数点ベースラインと比較してわずか3%の精度低下を維持しながら、2ビット精度(17.7倍のサイズ縮小を表す)までの人物検出のための81KBの小さなモデルを使用したQGTの有効性を示します。
We propose a Quantization Guided Training (QGT) method to guide DNN training towards optimized low-bit-precision targets and reach extreme compression levels below 8-bit precision. Unlike standard quantization-aware training (QAT) approaches, QGT uses customized regularization to encourage weight values towards a distribution that maximizes accuracy while reducing quantization errors. One of the main benefits of this approach is the ability to identify compression bottlenecks. We validate QGT using state-of-the-art model architectures on vision datasets. We also demonstrate the effectiveness of QGT with an 81KB tiny model for person detection down to 2-bit precision (representing 17.7x size reduction), while maintaining an accuracy drop of only 3% compared to a floating-point baseline.