ニューラルネットワークの量子化は、メモリフットプリントを削減し、エネルギー消費を節約するための有望な圧縮技術であり、リアルタイムの推論につながる可能性があります。ただし、量子化モデルと完全精度モデルの間にはパフォーマンスのギャップがあります。それを減らすために、既存の量子化アプローチは、スケーリングまたは逆量子化のための推論中に高精度INT32または全精度乗算を必要とします。これにより、メモリ、速度、および必要なエネルギーの点で顕著なコストが発生します。これらの問題に取り組むために、固定小数点8ビット乗算のみで構成される新しい量子化フレームワークであるF8Netを紹介します。私たちの方法を導き出すために、最初に、さまざまな形式の固定小数点数を使用した固定小数点乗算の利点について説明し、関連する固定小数点数の統計的動作を調べます。次に、統計分析とアルゴリズム分析に基づいて、さまざまなレイヤーの重みとアクティブ化にさまざまな固定小数点形式を適用します。トレーニング中に各レイヤーの適切な形式を自動的に決定する新しいアルゴリズムを紹介します。第3に、以前の量子化アルゴリズム(パラメーター化されたクリッピングアクティベーション(PACT))を分析し、固定小数点演算を使用して再定式化します。最後に、最近提案された量子化微調整の方法と固定小数点アプローチを統合して、この方法の可能性を示します。 MobileNet V1 / V2およびResNet18 / 50のImageNetでF8Netを検証します。私たちのアプローチは、INT32乗算または浮動小数点演算を使用した既存の量子化手法だけでなく、完全精度の対応する手法と比較した場合に、同等の優れたパフォーマンスを実現し、最先端のパフォーマンスを実現します。
Neural network quantization is a promising compression technique to reduce memory footprint and save energy consumption, potentially leading to real-time inference. However, there is a performance gap between quantized and full-precision models. To reduce it, existing quantization approaches require high-precision INT32 or full-precision multiplication during inference for scaling or dequantization. This introduces a noticeable cost in terms of memory, speed, and required energy. To tackle these issues, we present F8Net, a novel quantization framework consisting of only fixed-point 8-bit multiplication. To derive our method, we first discuss the advantages of fixed-point multiplication with different formats of fixed-point numbers and study the statistical behavior of the associated fixed-point numbers. Second, based on the statistical and algorithmic analysis, we apply different fixed-point formats for weights and activations of different layers. We introduce a novel algorithm to automatically determine the right format for each layer during training. Third, we analyze a previous quantization algorithm -- parameterized clipping activation (PACT) -- and reformulate it using fixed-point arithmetic. Finally, we unify the recently proposed method for quantization fine-tuning and our fixed-point approach to show the potential of our method. We verify F8Net on ImageNet for MobileNet V1/V2 and ResNet18/50. Our approach achieves comparable and better performance, when compared not only to existing quantization techniques with INT32 multiplication or floating-point arithmetic, but also to the full-precision counterparts, achieving state-of-the-art performance.