arXiv reaDer
NoisyQuant: ビジョン トランスフォーマー向けのノイジー バイアス強化トレーニング後の活性化量子化
NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers
ビジョン トランスフォーマーの複雑なアーキテクチャと高いトレーニング コストは、トレーニング後の量子化の調査を促します。ただし、ビジョン トランスフォーマーの活性化の裾の重い分布は、高度な量子化器の設計であっても、以前のトレーニング後の量子化方法の有効性を妨げます。量子化器を調整して複雑な活性化分布によりよく適合させる代わりに、このホワイト ペーパーでは、ビジョン トランスフォーマーのトレーニング後の活性化量子化パフォーマンスの量子化器に依存しない拡張機能である NoisyQuant を提案します。特定の量子化器について、量子化される値に固定の均一ノイズ バイアスを追加すると、証明可能な条件下で量子化誤差を大幅に削減できるという驚くべき理論的発見を行いました。理論的な洞察に基づいて構築された NoisyQuant は、指定された量子化器に適合するように加法性ノイズ バイアスを使用して裾の重い活性化分布を積極的に変更することに最初の成功を収めました。大規模な実験により、NoisyQuant は最小限の計算オーバーヘッドでビジョン トランスフォーマーのトレーニング後の量子化パフォーマンスを大幅に改善することが示されています。たとえば、線形均一 6 ビット アクティベーション量子化では、NoisyQuant は ImageNet の SOTA トップ 1 精度を ViT、DeiT、Swin Transformer でそれぞれ最大 1.7%、1.1%、0.5% 改善し、同等またはそれ以上のパフォーマンスを達成します。以前の非線形の混合精度量子化よりも優れています。
The complicated architecture and high training cost of vision transformers urge the exploration of post-training quantization. However, the heavy-tailed distribution of vision transformer activations hinders the effectiveness of previous post-training quantization methods, even with advanced quantizer designs. Instead of tuning the quantizer to better fit the complicated activation distribution, this paper proposes NoisyQuant, a quantizer-agnostic enhancement for the post-training activation quantization performance of vision transformers. We make a surprising theoretical discovery that for a given quantizer, adding a fixed Uniform noisy bias to the values being quantized can significantly reduce the quantization error under provable conditions. Building on the theoretical insight, NoisyQuant achieves the first success on actively altering the heavy-tailed activation distribution with additive noisy bias to fit a given quantizer. Extensive experiments show NoisyQuant largely improves the post-training quantization performance of vision transformer with minimal computation overhead. For instance, on linear uniform 6-bit activation quantization, NoisyQuant improves SOTA top-1 accuracy on ImageNet by up to 1.7%, 1.1% and 0.5% for ViT, DeiT, and Swin Transformer respectively, achieving on-par or even higher performance than previous nonlinear, mixed-precision quantization.
updated: Wed Apr 19 2023 17:30:33 GMT+0000 (UTC)
published: Tue Nov 29 2022 10:02:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト