ディープニューラルネットワーク(DNN)の重みとアクティベーションの量子化は、ネットワーク圧縮の強力な手法であり、大きな注目と成功を収めています。ただし、量子化の推論時間の利点の多くは、カスタマイズされたハードウェアアクセラレータを使用するか、量子化された演算のFPGA実装を提供することによってのみ利用できます。事前の作業に基づいて、普遍的に利用可能な固定幅スカラー演算でカスタムビット幅レーンを持つベクトルアーキテクチャを論理的に埋め込むソフトウェア手法を使用して、任意のビット精度の符号付きおよび符号なし整数演算を構築する方法を示します。ハイエンドのIntel Haswellプロセッサと組み込みARMプロセッサでのアプローチを評価します。私たちのアプローチは、ビット精度のカスタムDNN操作の非常に高速な実装を実現します。これは、ネイティブ算術でサポートされるサイズに量子化された操作のパフォーマンスと一致するか、それを超えることがよくあります。最強レベルの量子化では、インテルのプラットフォームでは\ thicksim6x、ARMプラットフォームでは\ thicksim10xの最大の高速化が得られ、ネイティブの8ビット整数への量子化が行われます。
Quantization of weights and activations in Deep Neural Networks (DNNs) is a powerful technique for network compression, and has enjoyed significant attention and success. However, much of the inference-time benefit of quantization is accessible only through the use of customized hardware accelerators or by providing an FPGA implementation of quantized arithmetic. Building on prior work, we show how to construct arbitrary bit-precise signed and unsigned integer operations using a software technique which logically embeds a vector architecture with custom bit-width lanes in universally available fixed-width scalar arithmetic. We evaluate our approach on a high-end Intel Haswell processor, and an embedded ARM processor. Our approach yields very fast implementations of bit-precise custom DNN operations, which often match or exceed the performance of operations quantized to the sizes supported in native arithmetic. At the strongest level of quantization, our approach yields a maximum speedup of \thicksim6× on the Intel platform, and \thicksim10× on the ARM platform versus quantization to native 8-bit integers.