arXiv reaDer
アトリビューションランク保存による一般化可能な混合精度量子化
Generalizable Mixed-Precision Quantization via Attribution Rank Preservation
本論文では、効率的な推論のための一般化可能な混合精度量子化(GMPQ)法を提案した。従来の方法では、ポリシーの最適性を保証するために、ビット幅検索とモデル展開のデータセットの一貫性が必要であり、現実的なアプリケーションで大規模なデータセットに挑戦すると、検索コストが高くなります。それどころか、私たちのGMPQは、少量のデータのみで大規模なデータセットに一般化できる混合量子化ポリシーを検索するため、パフォーマンスを低下させることなく検索コストを大幅に削減できます。具体的には、ネットワークの帰属を正しく特定することが、さまざまなデータ分布にわたる正確な視覚的分析のための一般的な能力であることがわかります。したがって、より高いモデルの精度と複雑さを追求しているにもかかわらず、一般化可能な混合精度の量子化戦略検索のための効率的な容量認識アトリビューション模倣により、量子化モデルとその完全精度の対応物の間のアトリビューションランクの一貫性を維持します。広範な実験により、私たちの方法では、検索コストを大幅に削減しながら、最先端の混合精度ネットワークと比較して、競争力のある精度と複雑さのトレードオフが得られることが示されています。コードはhttps://github.com/ZiweiWangTHU/GMPQ.gitで入手できます。
In this paper, we propose a generalizable mixed-precision quantization (GMPQ) method for efficient inference. Conventional methods require the consistency of datasets for bitwidth search and model deployment to guarantee the policy optimality, leading to heavy search cost on challenging largescale datasets in realistic applications. On the contrary, our GMPQ searches the mixed-quantization policy that can be generalized to largescale datasets with only a small amount of data, so that the search cost is significantly reduced without performance degradation. Specifically, we observe that locating network attribution correctly is general ability for accurate visual analysis across different data distribution. Therefore, despite of pursuing higher model accuracy and complexity, we preserve attribution rank consistency between the quantized models and their full-precision counterparts via efficient capacity-aware attribution imitation for generalizable mixed-precision quantization strategy search. Extensive experiments show that our method obtains competitive accuracy-complexity trade-off compared with the state-of-the-art mixed-precision networks in significantly reduced search cost. The code is available at https://github.com/ZiweiWangTHU/GMPQ.git.
updated: Thu Aug 05 2021 16:41:57 GMT+0000 (UTC)
published: Thu Aug 05 2021 16:41:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト