固定小数点演算の効率的な推論のために、低精度の重みとアクティブ化で構成されるディープニューラルネットワーク(DNN)の学習を検討します。低精度ネットワークのトレーニングでは、バックワードパスの勾配降下は高精度の重みで実行されますが、量子化された低精度の重みとアクティベーションは、フォワードパスでトレーニングの損失関数を計算するために使用されます。したがって、勾配降下は次善となり、精度の低下が続きます。順方向パスと逆方向パスの不一致を減らすために、平均二乗量子化誤差(MSQE)の正則化を利用します。特に、MSQEレギュライザーで学習可能な正則化係数を使用して、高精度の重みの量子化値への収束を強化することを提案します。同様に、部分的なL2正則化が重みの剪定にどのように使用できるかについても調べます。最後に、重みの剪定、量子化、およびエントロピーコーディングを組み合わせて、低精度のDNN圧縮パイプラインを確立します。私たちの実験では、提案された方法により、ImageNet分類で低精度のMobileNetモデルとShuffleNetモデルが生成され、それぞれ7.13と6.79の最新の圧縮比が得られます。さらに、画像の超解像ネットワークでパフォーマンスの損失が無視できる8ビットの低精度モデルを生成する方法についても検討します。
We consider learning deep neural networks (DNNs) that consist of low-precision weights and activations for efficient inference of fixed-point operations. In training low-precision networks, gradient descent in the backward pass is performed with high-precision weights while quantized low-precision weights and activations are used in the forward pass to calculate the loss function for training. Thus, the gradient descent becomes suboptimal, and accuracy loss follows. In order to reduce the mismatch in the forward and backward passes, we utilize mean squared quantization error (MSQE) regularization. In particular, we propose using a learnable regularization coefficient with the MSQE regularizer to reinforce the convergence of high-precision weights to their quantized values. We also investigate how partial L2 regularization can be employed for weight pruning in a similar manner. Finally, combining weight pruning, quantization, and entropy coding, we establish a low-precision DNN compression pipeline. In our experiments, the proposed method yields low-precision MobileNet and ShuffleNet models on ImageNet classification with the state-of-the-art compression ratios of 7.13 and 6.79, respectively. Moreover, we examine our method for image super resolution networks to produce 8-bit low-precision models at negligible performance loss.