arXiv reaDer
N:Mのきめ細かい構造化されたスパースニューラルネットワークをゼロから学習する
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch
ディープニューラルネットワーク(DNN)のスパース性は、リソースに制約のある環境でモデルを圧縮および高速化するために広く研究されてきました。これは一般に、ニューラルネットワーク全体に分散された複数の個別の重みをゼロにする非構造化細粒度スパース性と、ニューラルネットワークのサブネットワークのブロックを削除する構造化粗粒度スパース性に分類できます。きめの細かいスパース性は高い圧縮率を実現できますが、ハードウェアに対応していないため、速度の向上は制限されます。一方、粗粒度のスパース性は、最新のGPUでの見かけの加速と適切なパフォーマンスの両方を同時に達成することはできません。このホワイトペーパーでは、特別に設計されたGPUで、非構造化細粒度スパース性と構造化粗視化スパース性の両方の利点を同時に維持できるN:M細粒度構造化スパースネットワークのトレーニングを最初から研究しました。具体的には、2:4のスパースネットワークは、Nvidia A100GPUのパフォーマンスを低下させることなく2倍の速度向上を実現できます。さらに、最適化中にバニラSTEによって計算された近似勾配の悪影響を軽減するために、新規で効果的な成分であるスパースリファインストレートスルー推定量(SR-STE)を提案します。また、トレーニングプロセス中のスパースネットワークのトポロジ変更を測定するためのメトリックであるスパースアーキテクチャダイバージェンス(SAD)を定義します。最後に、SADでSR-STEの利点を正当化し、さまざまなタスクで包括的な実験を実行することにより、SR-STEの有効性を示します。ソースコードとモデルはhttps://github.com/NM-sparsity/NM-sparsityで入手できます。
Sparsity in Deep Neural Networks (DNNs) has been widely studied to compress and accelerate the models on resource-constrained environments. It can be generally categorized into unstructured fine-grained sparsity that zeroes out multiple individual weights distributed across the neural network, and structured coarse-grained sparsity which prunes blocks of sub-networks of a neural network. Fine-grained sparsity can achieve a high compression ratio but is not hardware friendly and hence receives limited speed gains. On the other hand, coarse-grained sparsity cannot concurrently achieve both apparent acceleration on modern GPUs and decent performance. In this paper, we are the first to study training from scratch an N:M fine-grained structured sparse network, which can maintain the advantages of both unstructured fine-grained sparsity and structured coarse-grained sparsity simultaneously on specifically designed GPUs. Specifically, a 2:4 sparse network could achieve 2x speed-up without performance drop on Nvidia A100 GPUs. Furthermore, we propose a novel and effective ingredient, sparse-refined straight-through estimator (SR-STE), to alleviate the negative influence of the approximated gradients computed by vanilla STE during optimization. We also define a metric, Sparse Architecture Divergence (SAD), to measure the sparse network's topology change during the training process. Finally, We justify SR-STE's advantages with SAD and demonstrate the effectiveness of SR-STE by performing comprehensive experiments on various tasks. Source codes and models are available at https://github.com/NM-sparsity/NM-sparsity.
updated: Mon Feb 08 2021 05:55:47 GMT+0000 (UTC)
published: Mon Feb 08 2021 05:55:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト