ネットワークパラメータ(重みとバイアス)が「潜在的な」空間で表され、再パラメータ化に至る、単純で一般的なニューラルネットワークの重み圧縮アプローチについて説明します。この空間には学習済み確率モデルが装備されており、トレーニング中にパラメーター表現にエントロピーペナルティを課し、トレーニング後に単純な算術コーダーを使用して表現を圧縮するために使用されます。分類の精度とモデルの圧縮率は、ビットレート-ハイパーパラメーターで指定された精度のトレードオフにより、共同で最大化されます。 6つの異なるモデルアーキテクチャを使用して、MNIST、CIFAR-10およびImageNet分類ベンチマークでメソッドを評価します。この結果は、多段階トレーニングなどの複雑な手順を必要とせずに、スケーラブルで一般的な方法で最先端のモデル圧縮を実現できることを示しています。
We describe a simple and general neural network weight compression approach, in which the network parameters (weights and biases) are represented in a "latent" space, amounting to a reparameterization. This space is equipped with a learned probability model, which is used to impose an entropy penalty on the parameter representation during training, and to compress the representation using a simple arithmetic coder after training. Classification accuracy and model compressibility is maximized jointly, with the bitrate--accuracy trade-off specified by a hyperparameter. We evaluate the method on the MNIST, CIFAR-10 and ImageNet classification benchmarks using six distinct model architectures. Our results show that state-of-the-art model compression can be achieved in a scalable and general way without requiring complex procedures such as multi-stage training.