Data-Free Quantization Through Weight Equalization and Bias Correction
 微調整やハイパーパラメーターの選択を必要としない、ディープニューラルネットワーク用のデータなしの量子化手法を紹介します。一般的なコンピュータービジョンアーキテクチャとタスクで、ほぼオリジナルのモデルパフォーマンスを実現します。 8ビットの固定小数点量子化は、最新の深層学習ハードウェアでの効率的な推論に不可欠です。ただし、8ビットで実行するようにモデルを量子化することは簡単な作業ではなく、大幅なパフォーマンスの低下、または量子化に適したネットワークのトレーニングに費やされるエンジニアリング時間のいずれかにつながることがよくあります。私たちのアプローチは、活性化関数のスケール等価特性を利用して、ネットワーク内の重み範囲を均等化することに依存しています。さらに、この方法は、量子化中に生じる誤差のバイアスを修正します。これにより、量子化精度のパフォーマンスが向上し、単純なAPI呼び出しで多くの一般的なコンピュータービジョンアーキテクチャに適用できます。 MobileNetファミリなどの一般的なアーキテクチャでは、最新の量子化モデルのパフォーマンスを実現しています。さらに、このメソッドは、セマンティックセグメンテーションやオブジェクト検出などの他のコンピュータービジョンアーキテクチャやタスクにも拡張されることを示しています。
We introduce a data-free quantization method for deep neural networks that does not require fine-tuning or hyperparameter selection. It achieves near-original model performance on common computer vision architectures and tasks. 8-bit fixed-point quantization is essential for efficient inference on modern deep learning hardware. However, quantizing models to run in 8-bit is a non-trivial task, frequently leading to either significant performance reduction or engineering time spent on training a network to be amenable to quantization. Our approach relies on equalizing the weight ranges in the network by making use of a scale-equivariance property of activation functions. In addition the method corrects biases in the error that are introduced during quantization. This improves quantization accuracy performance, and can be applied to many common computer vision architectures with a straight forward API call. For common architectures, such as the MobileNet family, we achieve state-of-the-art quantized model performance. We further show that the method also extends to other computer vision architectures and tasks such as semantic segmentation and object detection.
updated: Mon Nov 25 2019 15:00:11 GMT+0000 (UTC)
published: Tue Jun 11 2019 17:47:51 GMT+0000 (UTC)
