ディープ ニューラル ネットワーク (DNN) は、現在、コンピューター ビジョンなどの多くの分野で普及しています。ただし、待ち時間が長いため、DNN の展開は、重みとアクティベーションのエンコードに使用されるビット数を減らす量子化などの圧縮技術の開発にかかっています。プライバシーとセキュリティに対する懸念の高まりは、正確さを犠牲にして、データフリー技術の開発を促進しています。この論文では、量子化演算子の均一性を既存のアプローチの制限として特定し、データのない不均一な方法を提案します。より具体的には、専用のハードウェアと実装なしですぐに使用できるようにするために、不均一な量子化は DNN によって実行される数学演算の性質を変えてはならないと主張します。これにより、(R_+^*,×) の連続自己同形の中から検索が行われ、それらの指数によって定義される累乗関数に要約されます。このパラメーターを見つけるために、各レイヤーの再構成エラーを最適化することを提案します。特に、この手順が局所的に凸であり、一意の解が認められることを示します。推論時に、PowerQuant と呼ばれる私たちのアプローチが、量子化された DNN 活性化関数の単純な変更のみを必要とすることを示します。そのため、ごくわずかなオーバーヘッドで、さまざまな構成で既存の方法よりも大幅に優れています。
Deep neural networks (DNNs) are nowadays ubiquitous in many domains such as computer vision. However, due to their high latency, the deployment of DNNs hinges on the development of compression techniques such as quantization which consists in lowering the number of bits used to encode the weights and activations. Growing concerns for privacy and security have motivated the development of data-free techniques, at the expanse of accuracy. In this paper, we identity the uniformity of the quantization operator as a limitation of existing approaches, and propose a data-free non-uniform method. More specifically, we argue that to be readily usable without dedicated hardware and implementation, non-uniform quantization shall not change the nature of the mathematical operations performed by the DNN. This leads to search among the continuous automorphisms of (R_+^*,×), which boils down to the power functions defined by their exponent. To find this parameter, we propose to optimize the reconstruction error of each layer: in particular, we show that this procedure is locally convex and admits a unique solution. At inference time, we show that our approach, dubbed PowerQuant, only require simple modifications in the quantized DNN activation functions. As such, with only negligible overhead, it significantly outperforms existing methods in a variety of configurations.