トレーニング後の量子化 (PTQ) は、エンドツーエンドの再トレーニングなしでキャリブレーションに小さなデータセットしか必要としない、軽量で実用的なモデル圧縮手法です。最近、ビジョン トランス (ViTs) のいくつかの PTQ スキームが提示されています。残念ながら、特に低ビットの場合は、通常、自明ではない精度の低下に悩まされます。この論文では、上記の問題に対処するために、量子化スケールの再パラメータ化に基づくViTの新しいPTQフレームワークであるRepQ-ViTを提案します。 RepQ-ViT は、量子化プロセスと推論プロセスを分離します。前者は複雑な量子化器を使用し、後者はスケール再パラメータ化された単純化された量子化器を使用します。これにより、正確な量子化と効率的な推論の両方が保証され、ターゲット ハードウェアを満たすために量子化パフォーマンスを犠牲にする既存のアプローチとは一線を画します。より具体的には、極端な分布を持つ 2 つのコンポーネントに焦点を当てます。深刻なチャネル間変動を伴う LayerNorm 後のアクティベーションとべき法則機能を伴う Softmax 後のアクティベーションであり、最初にチャネル単位の量子化と log2 量子化をそれぞれ適用します。次に、スケールをハードウェアに適したレイヤーごとの量子化と、推論のために log2 量子化に再パラメーター化します。精度や計算コストはわずかです。さまざまなモデルバリアントを使用して複数のビジョンタスクで広範な実験が行われ、ハイパーパラメーターや高価な再構築手順を使用しない RepQ-ViT が既存の強力なベースラインよりも優れており、ViT の 4 ビット PTQ の精度を使用可能なレベルまで向上させることができることが証明されています。
Post-training quantization (PTQ), which only requires a tiny dataset for calibration without end-to-end retraining, is a light and practical model compression technique. Recently, several PTQ schemes for vision transformers (ViTs) have been presented; unfortunately, they typically suffer from non-trivial accuracy degradation, especially in low-bit cases. In this paper, we propose RepQ-ViT, a novel PTQ framework for ViTs based on quantization scale reparameterization, to address the above issues. RepQ-ViT decouples the quantization and inference processes, where the former employs complex quantizers and the latter employs scale-reparameterized simplified quantizers. This ensures both accurate quantization and efficient inference, which distinguishes it from existing approaches that sacrifice quantization performance to meet the target hardware. More specifically, we focus on two components with extreme distributions: post-LayerNorm activations with severe inter-channel variation and post-Softmax activations with power-law features, and initially apply channel-wise quantization and log2 quantization, respectively. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference, with only slight accuracy or computational costs. Extensive experiments are conducted on multiple vision tasks with different model variants, proving that RepQ-ViT, without hyperparameters and expensive reconstruction procedures, can outperform existing strong baselines and encouragingly improve the accuracy of 4-bit PTQ of ViTs to a usable level.