arXiv reaDer
距離を意識した量子化
Distance-aware Quantization
ネットワーク量子化の問題に対処します。つまり、重みやアクティベーションのビット幅を減らして、ネットワークアーキテクチャを軽量化します。量子化メソッドは、丸め関数を使用して、完全精度の値を最も近い量子化された値にマップしますが、この操作は微分可能ではありません。勾配ベースのオプティマイザを使用して量子化ネットワークをトレーニングするには、主に2つのアプローチがあります。まず、ストレートスルー推定量(STE)は、丸めのゼロ導関数を恒等関数のゼロ導関数に置き換えます。これにより、勾配の不一致の問題が発生します。次に、ソフト量子化器は、トレーニング時に連続関数で丸めを近似し、テスト時に量子化に丸めを利用します。これにより、グラジエントの不一致が緩和されますが、量子化器のギャップの問題が発生します。統一されたフレームワークで両方の問題を軽減します。この目的のために、主に距離認識ソフト丸め(DASR)と温度コントローラーで構成される、距離認識量子化器(DAQ)と呼ばれる新しい量子化器を紹介します。勾配の不一致の問題を軽減するために、DASRは、離散丸めをカーネルソフトargmaxで近似します。これは、量子化が完全精度値と量子化値の間の距離ベースの割り当て問題として定式化できるという洞察に基づいています。コントローラは、DASRの温度パラメータを入力に応じて適応的に調整し、量子化器のギャップの問題に対処します。標準ベンチマークでの実験結果は、ベルやホイッスルのないさまざまなビット幅で、DAQが最先端技術を大幅に上回っていることを示しています。
We address the problem of network quantization, that is, reducing bit-widths of weights and/or activations to lighten network architectures. Quantization methods use a rounding function to map full-precision values to the nearest quantized ones, but this operation is not differentiable. There are mainly two approaches to training quantized networks with gradient-based optimizers. First, a straight-through estimator (STE) replaces the zero derivative of the rounding with that of an identity function, which causes a gradient mismatch problem. Second, soft quantizers approximate the rounding with continuous functions at training time, and exploit the rounding for quantization at test time. This alleviates the gradient mismatch, but causes a quantizer gap problem. We alleviate both problems in a unified framework. To this end, we introduce a novel quantizer, dubbed a distance-aware quantizer (DAQ), that mainly consists of a distance-aware soft rounding (DASR) and a temperature controller. To alleviate the gradient mismatch problem, DASR approximates the discrete rounding with the kernel soft argmax, which is based on our insight that the quantization can be formulated as a distance-based assignment problem between full-precision values and quantized ones. The controller adjusts the temperature parameter in DASR adaptively according to the input, addressing the quantizer gap problem. Experimental results on standard benchmarks show that DAQ outperforms the state of the art significantly for various bit-widths without bells and whistles.
updated: Mon Aug 16 2021 09:25:22 GMT+0000 (UTC)
published: Mon Aug 16 2021 09:25:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト