arXiv reaDer
Channel Gating Neural Networks
 このペーパーでは、チャネルゲーティング、動的で細粒度のハードウェア効率のプルーニングスキームを導入して、畳み込みニューラルネットワーク(CNN)の計算コストを削減します。チャネルゲーティングは、分類結果にあまり寄与しないフィーチャ内の領域を識別し、これらの無効な領域の入力チャネルのサブセットでの計算をスキップします。静的なネットワークプルーニングとは異なり、チャネルゲーティングは、入力固有の特性を活用することにより、実行時のCNN推論を最適化します。これにより、精度をほとんど損なうことなく、計算コストを大幅に削減できます。最先端のネットワークにチャネルゲーティングを適用すると、CIFAR-での精度損失を最小限に抑えながら、浮動小数点演算(FLOP)を2.7-8.0倍、オフチップメモリアクセスを2.0-4.4倍削減できることを実験的に示しています。 10。この方法を知識の蒸留と組み合わせることで、ImageNetの精度を落とすことなくResNet-18の計算コストを2.6倍削減できます。さらに、チャネルゲーティングをハードウェアで効率的に実現できることを実証します。私たちのアプローチは、最小限の追加ハードウェアで高密度の収縮期アレイに適したスパースパターンを示します。 FPGAまたはASICのいずれかを使用して実装できる、チャネルゲーティングネットワーク用のアクセラレータを設計しました。 ImageNetの量子化されたResNet-18モデルを実行すると、アクセラレータは理論的にはFLOPを2.8倍削減し、平均2.4倍の高速化を実現します。
This paper introduces channel gating, a dynamic, fine-grained, and hardware-efficient pruning scheme to reduce the computation cost for convolutional neural networks (CNNs). Channel gating identifies regions in the features that contribute less to the classification result, and skips the computation on a subset of the input channels for these ineffective regions. Unlike static network pruning, channel gating optimizes CNN inference at run-time by exploiting input-specific characteristics, which allows substantially reducing the compute cost with almost no accuracy loss. We experimentally show that applying channel gating in state-of-the-art networks achieves 2.7-8.0× reduction in floating-point operations (FLOPs) and 2.0-4.4× reduction in off-chip memory accesses with a minimal accuracy loss on CIFAR-10. Combining our method with knowledge distillation reduces the compute cost of ResNet-18 by 2.6× without accuracy drop on ImageNet. We further demonstrate that channel gating can be realized in hardware efficiently. Our approach exhibits sparsity patterns that are well-suited to dense systolic arrays with minimal additional hardware. We have designed an accelerator for channel gating networks, which can be implemented using either FPGAs or ASICs. Running a quantized ResNet-18 model for ImageNet, our accelerator achieves an encouraging speedup of 2.4× on average, with a theoretical FLOP reduction of 2.8×.
updated: Mon Oct 28 2019 23:53:50 GMT+0000 (UTC)
published: Tue May 29 2018 20:11:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト