arXiv reaDer
QDrop:非常に低ビットのトレーニング後の量子化のためのランダムドロップ量子化
QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization
最近、トレーニング後の量子化(PTQ)により、長時間の再トレーニングなしで効率的なニューラルネットワークを生成することが注目されています。低コストにもかかわらず、現在のPTQ作業は、非常に低いビット設定では失敗する傾向があります。この研究では、PTQ再構成にアクティベーション量子化を適切に組み込むことが最終的な精度に役立つことを先駆的に確認しました。固有の理由を深く理解するために、理論的なフレームワークが確立され、キャリブレーションおよびテストデータで最適化された低ビットモデルの平坦性が重要であることを示しています。結論に基づいて、QDROPと呼ばれるシンプルで効果的なアプローチが提案されます。これはPTQ中のアクティベーションの量子化をランダムにドロップします。コンピュータビジョン(画像分類、オブジェクト検出)や自然言語処理(テキスト分類と質問応答)を含むさまざまなタスクに関する広範な実験により、その優位性が証明されています。 QDROPを使用すると、PTQの制限が初めて2ビットのアクティブ化にプッシュされ、精度が最大51.49%向上します。ベルやホイッスルなしで、QDROPはPTQの新しい最先端技術を確立します。私たちのコードはhttps://github.com/wimh966/QDropで入手でき、MQBench(https://github.com/ModelTC/MQBench)に統合されています。
Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)
updated: Tue Feb 21 2023 11:24:41 GMT+0000 (UTC)
published: Fri Mar 11 2022 04:01:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト