HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks
 量子化は、メモリフットプリントとニューラルネットワークの推論時間を削減するための効果的な方法です。たとえば、特にエッジでのクラウドでの効率的な推論のために。ただし、超低精度の量子化では、モデルの一般化が大幅に低下する可能性があります。これに対処する有望な方法は、より高感度のレイヤーをより高い精度で保持する混合精度の量子化を実行することです。ただし、混合精度の量子化の検索空間は、レイヤー数で指数関数的です。最近の研究では、二次情報を使用してこの指数探索空間を削減することを目的とした、ヘッセベースの新しいフレームワークであるHAWQが提案されています。有望ですが、この先行研究には3つの主要な制限があります。(i)HAWQV1は感度の尺度として最上位のヘッセ固有値のみを使用し、ヘッセスペクトルの残りを考慮しません。 (ii)HAWQV1アプローチは異なるレイヤーの相対的な感度のみを提供するため、混合精度の設定を手動で選択する必要があります。 (iii)HAWQV1は、混合精度のアクティベーション量子化を考慮しません。ここでは、これらの欠点に対処するHAWQV2を紹介します。 (i)については、すべてのヘッセ固有値の平均を計算することが、より優れた感度メトリックであることを示す理論分析を実行します。 (ii)では、手動選択なしで異なるレイヤーの正確なビット精度を選択するためのパレートフロンティアベースの方法を開発します。 (iii)では、ヘッセ分析を混合精度活性化量子化に拡張します。これはオブジェクト検出に非常に有益であることがわかりました。 HAWQV2が幅広いタスクで新しい最先端の結果を達成することを示します。
Quantization is an effective method for reducing memory footprint and inference time of Neural Networks, e.g., for efficient inference in the cloud, especially at the edge. However, ultra low precision quantization could lead to significant degradation in model generalization. A promising method to address this is to perform mixed-precision quantization, where more sensitive layers are kept at higher precision. However, the search space for a mixed-precision quantization is exponential in the number of layers. Recent work has proposed HAWQ, a novel Hessian based framework, with the aim of reducing this exponential search space by using second-order information. While promising, this prior work has three major limitations: (i) HAWQV1 only uses the top Hessian eigenvalue as a measure of sensitivity and do not consider the rest of the Hessian spectrum; (ii) HAWQV1 approach only provides relative sensitivity of different layers and therefore requires a manual selection of the mixed-precision setting; and (iii) HAWQV1 does not consider mixed-precision activation quantization. Here, we present HAWQV2 which addresses these shortcomings. For (i), we perform a theoretical analysis showing that a better sensitivity metric is to compute the average of all of the Hessian eigenvalues. For (ii), we develop a Pareto frontier based method for selecting the exact bit precision of different layers without any manual selection. For (iii), we extend the Hessian analysis to mixed-precision activation quantization. We have found this to be very beneficial for object detection. We show that HAWQV2 achieves new state-of-the-art results for a wide range of tasks.
