arXiv reaDer
REx: データフリーの残差量子化誤差拡張
REx: Data-Free Residual Quantization Error Expansion
ディープ ニューラル ネットワーク (DNN) は、コンピューター ビジョンと自然言語処理の分野で広く使用されていますが、推論コストが高いという問題があります。この問題は、浮動小数点演算をより低いビット幅の形式に変換する量子化によって対処できます。プライバシー権に関する懸念が高まる中、当社はデータフリーの方法に注力しています。ただし、ハードウェアは通常、特定のビット幅しかサポートしないため、このような手法はターゲット デバイスへの適応性に欠けるという欠点があります。したがって、さまざまなデバイスに適応するために、量子化方法は、すべてのビット幅とターゲットデバイスの精度と速度の適切なトレードオフを見つけるのに十分柔軟でなければなりません。これを達成するために、REx を提案します。REx は、残差エラー拡張を活用する量子化方法であり、グループのスパース性と並列化を向上させるためのアンサンブル近似も使用します。 REx は強力な理論的保証によって支えられており、ベンチマーク対象のすべてのアプリケーション (ビジョンから NLP タスクまで)、アーキテクチャ (ConvNets、トランスフォーマー)、およびビット幅 (int8 から 3 値量子化まで) で優れたパフォーマンスを実現します。
Deep neural networks (DNNs) are ubiquitous in computer vision and natural language processing, but suffer from high inference cost. This problem can be addressed by quantization, which consists in converting floating point operations into a lower bit-width format. With the growing concerns on privacy rights, we focus our efforts on data-free methods. However, such techniques suffer from their lack of adaptability to the target devices, as a hardware typically only support specific bit widths. Thus, to adapt to a variety of devices, a quantization method shall be flexible enough to find good accuracy v.s. speed trade-offs for every bit width and target device. To achieve this, we propose REx, a quantization method that leverages residual error expansion, along with group sparsity and an ensemble approximation for better parallelization. REx is backed off by strong theoretical guarantees and achieves superior performance on every benchmarked application (from vision to NLP tasks), architecture (ConvNets, transformers) and bit-width (from int8 to ternary quantization).
updated: Mon May 29 2023 13:10:33 GMT+0000 (UTC)
published: Mon Mar 28 2022 11:04:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト