PDP: パラメータを使用しない微分可能な枝刈りだけが必要です
PDP: Parameter-free Differentiable Pruning is All You Need
DNN プルーニングは、モデルのサイズを削減し、推論レイテンシを改善し、DNN アクセラレータの電力消費を最小限に抑えるための一般的な方法です。ただし、既存のアプローチは、さまざまな視覚/言語タスクや DNN アーキテクチャに適用したり、構造化された枝刈り制約を遵守したりするには、複雑すぎるか、費用がかかるか、非効果的である可能性があります。この論文では、モデルのサイズ、精度、トレーニング コストにおいて最先端の品質を提供する、効率的かつ効果的なトレーニング時間枝刈りスキームであるパラメーターフリー微分枝刈り (PDP) を提案します。 PDP は、トレーニング中に重みの動的関数を使用して、特定の枝刈りターゲットに対してパラメーターを使用しない方法で重みのソフト枝刈りマスクを生成します。 PDP は微分可能でありながら、そのシンプルさと効率性により、さまざまな視覚タスクや自然言語タスクに対して最先端のランダム/構造化/チャネル プルーニング結果を提供するのに十分な汎用性を備えています。たとえば、MobileNet-v1 の場合、PDP は 86.6% のスパース性でトップ 1 ImageNet1k の 68.2% の精度を達成できます。これは、最先端のアルゴリズムよりも 1.7% 高い精度です。また、PDP は、BERT のスパース性が 90% の多ジャンル自然言語推論で 83.1% 以上の精度を示しますが、既存の技術で次に優れたものでは 81.5% の精度が示されます。さらに、PDP は、N:M プルーニングやチャネル プルーニングなどの構造化されたプルーニングにも適用できます。 ResNet18 の 1:4 構造化プルーニングの場合、PDP はトップ 1 ImageNet1k の精度を最先端のものより 3.6% 以上向上させました。 ResNet50 のチャネル プルーニングでは、PDP はトップ 1 ImageNet1k の精度を最先端のものより 0.6% 削減しました。
DNN pruning is a popular way to reduce the size of a model, improve the inference latency, and minimize the power consumption on DNN accelerators. However, existing approaches might be too complex, expensive or ineffective to apply to a variety of vision/language tasks, DNN architectures and to honor structured pruning constraints. In this paper, we propose an efficient yet effective train-time pruning scheme, Parameter-free Differentiable Pruning (PDP), which offers state-of-the-art qualities in model size, accuracy, and training cost. PDP uses a dynamic function of weights during training to generate soft pruning masks for the weights in a parameter-free manner for a given pruning target. While differentiable, the simplicity and efficiency of PDP make it universal enough to deliver state-of-the-art random/structured/channel pruning results on various vision and natural language tasks. For example, for MobileNet-v1, PDP can achieve 68.2% top-1 ImageNet1k accuracy at 86.6% sparsity, which is 1.7% higher accuracy than those from the state-of-the-art algorithms. Also, PDP yields over 83.1% accuracy on Multi-Genre Natural Language Inference with 90% sparsity for BERT, while the next best from the existing techniques shows 81.5% accuracy. In addition, PDP can be applied to structured pruning, such as N:M pruning and channel pruning. For 1:4 structured pruning of ResNet18, PDP improved the top-1 ImageNet1k accuracy by over 3.6% over the state-of-the-art. For channel pruning of ResNet50, PDP reduced the top-1 ImageNet1k accuracy by 0.6% from the state-of-the-art.
updated: Fri Nov 17 2023 22:25:08 GMT+0000 (UTC)
published: Thu May 18 2023 16:57:10 GMT+0000 (UTC)
