量子化は、コンボリューションニューラルネットワーク(CNN)の速度を上げ、メモリ使用量を減らす一般的な方法です。ラベル付きのトレーニングデータが利用できる場合、ネットワークの重みとアクティベーションは1ビットまで正常に量子化されています。ラベル付きトレーニングデータが利用できない場合、シナリオについても同じことが言えません。事前トレーニング済みのモデルを量子化する場合、現在のアプローチでは、せいぜい8ビットの量子化で精度の損失はありません。 DSConvを導入します。これは、カーネルの重みと出力の両方の確率分布を維持しながら、単精度演算をはるかに安価な対応する整数に置き換える柔軟な量子化畳み込み演算子です。最も一般的なニューラルネットワークアーキテクチャであるResNet、DenseNet、GoogLeNet、AlexNet、VGG-Netの標準的な畳み込みのプラグアンドプレイ代替としてモデルをテストし、1%未満の損失で最先端の結果を実証します再トレーニングなしで、4ビットの量子化のみを使用した精度の向上。また、ラベル付けされていないデータを使用した蒸留ベースの適応段階が、結果をさらに改善する方法も示します。
Quantization is a popular way of increasing the speed and lowering the memory usage of Convolution Neural Networks (CNNs). When labelled training data is available, network weights and activations have successfully been quantized down to 1-bit. The same cannot be said about the scenario when labelled training data is not available, e.g. when quantizing a pre-trained model, where current approaches show, at best, no loss of accuracy at 8-bit quantizations. We introduce DSConv, a flexible quantized convolution operator that replaces single-precision operations with their far less expensive integer counterparts, while maintaining the probability distributions over both the kernel weights and the outputs. We test our model as a plug-and-play replacement for standard convolution on most popular neural network architectures, ResNet, DenseNet, GoogLeNet, AlexNet and VGG-Net and demonstrate state-of-the-art results, with less than 1% loss of accuracy, without retraining, using only 4-bit quantization. We also show how a distillation-based adaptation stage with unlabelled data can improve results even further.