ポストトレーニング量子化 (PTQ) は、エンドツーエンドの再トレーニングを行わずにキャリブレーションに小さなデータセットのみを必要とする、軽量で実用的なモデル圧縮手法です。最近、ビジョン トランスフォーマー (ViT) 用の PTQ スキームがいくつか発表されました。残念ながら、通常、特に低ビットの場合に、重大な精度の低下が発生します。この論文では、上記の問題に対処するために、量子化スケールの再パラメータ化に基づく ViT 用の新しい PTQ フレームワークである RepQ-ViT を提案します。 RepQ-ViT は、量子化プロセスと推論プロセスを分離します。前者は複雑な量子化器を使用し、後者はスケール再パラメータ化された単純化された量子化器を使用します。これにより、正確な量子化と効率的な推論の両方が保証され、ターゲット ハードウェアを満たすために量子化パフォーマンスを犠牲にする既存のアプローチとは異なります。より具体的には、極端な分布を持つ 2 つのコンポーネント、つまり、深刻なチャネル間変動を伴う LayerNorm 後のアクティベーションと、べき乗則特徴を伴う Softmax 後のアクティベーションに焦点を当て、最初にそれぞれチャネルごとの量子化と log2 量子化を適用します。次に、わずかな精度または計算コストで、推論用にハードウェアに適したレイヤーごとの量子化と log2 量子化にスケールを再パラメータ化します。さまざまなモデルバリアントを使用した複数の視覚タスクで広範な実験が行われ、ハイパーパラメータや高価な再構成手順を使用しない RepQ-ViT が既存の強力なベースラインを上回るパフォーマンスを発揮し、ViT の 4 ビット PTQ の精度を使用可能なレベルまで大幅に向上できることが証明されました。コードは https://github.com/zkkli/RepQ-ViT で入手できます。
Post-training quantization (PTQ), which only requires a tiny dataset for calibration without end-to-end retraining, is a light and practical model compression technique. Recently, several PTQ schemes for vision transformers (ViTs) have been presented; unfortunately, they typically suffer from non-trivial accuracy degradation, especially in low-bit cases. In this paper, we propose RepQ-ViT, a novel PTQ framework for ViTs based on quantization scale reparameterization, to address the above issues. RepQ-ViT decouples the quantization and inference processes, where the former employs complex quantizers and the latter employs scale-reparameterized simplified quantizers. This ensures both accurate quantization and efficient inference, which distinguishes it from existing approaches that sacrifice quantization performance to meet the target hardware. More specifically, we focus on two components with extreme distributions: post-LayerNorm activations with severe inter-channel variation and post-Softmax activations with power-law features, and initially apply channel-wise quantization and log2 quantization, respectively. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference, with only slight accuracy or computational costs. Extensive experiments are conducted on multiple vision tasks with different model variants, proving that RepQ-ViT, without hyperparameters and expensive reconstruction procedures, can outperform existing strong baselines and encouragingly improve the accuracy of 4-bit PTQ of ViTs to a usable level. Code is available at https://github.com/zkkli/RepQ-ViT.