arXiv reaDer
理論的な観点からトレーニング後の量子化における振動問題を解決する
Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective
トレーニング後の量子化 (PTQ) は、データのプライバシーと低い計算コストの恩恵を受けて、実際に最も効率的な圧縮方法の 1 つとして広く認識されています。見落とされがちな振動の問題が PTQ メソッドにあると主張します。この論文では、なぜそのような問題がPTQに不可欠なのかを説明するために、理論的な証明を探求し、提示するために率先して取り組みます。そして、原則的かつ一般化されたフレームワークを理論的に導入することにより、この問題を解決しようとします。特に、最初に PTQ の振動を定式化し、問題がモジュール容量の違いによって引き起こされることを証明します。この目的のために、データ依存およびデータフリーのシナリオでモジュール容量 (ModCap) を定義します。ここでは、隣接するモジュール間の差分を使用して振動の程度を測定します。この問題は、対応するモジュールが一緒に最適化および量子化される上位 k 差分を選択することによって解決されます。広範な実験により、私たちの方法がパフォーマンスの低下をうまく減らし、さまざまなニューラル ネットワークと PTQ メソッドに一般化されることが実証されました。たとえば、2/4 ビットの ResNet-50 量子化では、私たちの方法は以前の最先端の方法を 1.9% 上回っています。小さなモデルの量子化ではより重要になります。たとえば、MobileNetV2*0.5 では BRECQ 法を 6.61% 上回っています。
Post-training quantization (PTQ) is widely regarded as one of the most efficient compression methods practically, benefitting from its data privacy and low computation costs. We argue that an overlooked problem of oscillation is in the PTQ methods. In this paper, we take the initiative to explore and present a theoretical proof to explain why such a problem is essential in PTQ. And then, we try to solve this problem by introducing a principled and generalized framework theoretically. In particular, we first formulate the oscillation in PTQ and prove the problem is caused by the difference in module capacity. To this end, we define the module capacity (ModCap) under data-dependent and data-free scenarios, where the differentials between adjacent modules are used to measure the degree of oscillation. The problem is then solved by selecting top-k differentials, in which the corresponding modules are jointly optimized and quantized. Extensive experiments demonstrate that our method successfully reduces the performance drop and is generalized to different neural networks and PTQ methods. For example, with 2/4 bit ResNet-50 quantization, our method surpasses the previous state-of-the-art method by 1.9%. It becomes more significant on small model quantization, e.g. surpasses BRECQ method by 6.61% on MobileNetV2*0.5.
updated: Tue Mar 21 2023 14:52:52 GMT+0000 (UTC)
published: Tue Mar 21 2023 14:52:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト