arXiv reaDer
ネットワークスパース性のための 1×N ブロックパターン
1×N Block Pattern for Network Sparsity
ネットワークのスパース性は、ニューラル ネットワークのサイズの大幅な増加を克服するための有望な方向として浮上していますが、一般的な CPU で大幅なスピードアップを達成するだけでなく、モデルの精度を同時に維持することは未解決の問題のままです。この論文では、この制限を打破するために、1×N ブロック スパース パターン (ブロック プルーニング) の 1 つの新しい概念を提案します。特に、同じ入力チャネル インデックスを持つ連続する N 個の出力カーネルは、1 つのブロックにグループ化されます。これは、プルーニング パターンの基本的なプルーニング粒度として機能します。私たちの 1 × N のスパース パターンは、重要ではないと考えられるこれらのブロックを削除します。また、最初に出力チャネル次元の重み行列を再配置して精度向上のためにより影響力のあるブロックを導き出し、次に入力チャネル次元の次の層の重みに同様の再配置を適用して正しい畳み込み演算を確実にするフィルター再配置のワークフローも提供します。さらに、1 × N ブロック スパース後の出力計算は、並列化されたブロックごとのベクトル化操作によって実現でき、一般的な CPU ベースのプラットフォームで大幅な高速化につながります。私たちの剪定パターンの有効性は、ILSVRC-2012 での実験で証明されています。たとえば、スパース性が 50% で N=4 の場合、私たちのパターンは、MobileNet-V2 のトップ 1 の精度でフィルター プルーニングよりも約 3.0% 向上します。一方、Cortex-A7 CPU では、重みプルーニングよりも 56.04ms の推論節約が得られます。コードは https://github.com/lmbxmu/1xN で入手できます。
Though network sparsity emerges as a promising direction to overcome the drastically increasing size of neural networks, it remains an open problem to concurrently maintain model accuracy as well as achieve significant speedups on general CPUs. In this paper, we propose one novel concept of 1×N block sparsity pattern (block pruning) to break this limitation. In particular, consecutive N output kernels with the same input channel index are grouped into one block, which serves as a basic pruning granularity of our pruning pattern. Our 1 ×N sparsity pattern prunes these blocks considered unimportant. We also provide a workflow of filter rearrangement that first rearranges the weight matrix in the output channel dimension to derive more influential blocks for accuracy improvements, and then applies similar rearrangement to the next-layer weights in the input channel dimension to ensure correct convolutional operations. Moreover, the output computation after our 1 ×N block sparsity can be realized via a parallelized block-wise vectorized operation, leading to significant speedups on general CPUs-based platforms. The efficacy of our pruning pattern is proved with experiments on ILSVRC-2012. For example, in the case of 50% sparsity and N=4, our pattern obtains about 3.0% improvements over filter pruning in the top-1 accuracy of MobileNet-V2. Meanwhile, it obtains 56.04ms inference savings on Cortex-A7 CPU over weight pruning. Code is available at https://github.com/lmbxmu/1xN.
updated: Mon May 31 2021 05:50:33 GMT+0000 (UTC)
published: Mon May 31 2021 05:50:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト