畳み込みニューラルネットワークは、コンピュータービジョンタスクで驚異的なパフォーマンス機能を示しましたが、それらの過剰な量のストレージと算術演算は、組み込み環境での採用を妨げています。解決策の1つはプルーニングを含み、特定の重要でない重みがゼロの値を持つように強制されます。多くの剪定スキームが提案されてきましたが、これらは主に剪定された重みの数に焦点を当ててきました。以前のプルーニングスキームでは、ASICまたはFPGAアクセラレータアーキテクチャはほとんど考慮されていませんでした。これらのプルーニングされたネットワークがアクセラレーターで実行される場合、アーキテクチャーの考慮の欠如は、内部バッファーの不整合や負荷の不均衡など、いくつかの非効率性の問題を引き起こします。このホワイトペーパーでは、アクセラレータアーキテクチャを反映した新しいプルーニングスキームを提案します。提案された方式では、同時にフェッチされたアクティブ化に対応する重みグループごとに同じ数の重みが残るように、プルーニングが実行されます。このように、プルーニングスキームは非効率性の問題を解決し、アクセラレータのパフォーマンスを2倍にします。この制約があっても、提案されたプルーニングスキームは、AlexNetとVGG16だけでなく、ResNetなどの最先端の非常に深いネットワークでも、以前の制約のないプルーニングスキームと同様のプルーニング比に達しました。さらに、提案されたスキームは、MobileNetなどのコンパクトなネットワークと、すでにチャネルごとに剪定されたスリム化されたネットワークで、同等の剪定比率を示しました。以前のスパースアクセラレータの効率を改善することに加えて、提案されたプルーニングスキームを使用してスパースアクセラレーターのロジックの複雑さを軽減できることも示されます。プルーニングモデルは、https://github.com/HyeongjuKang/で公開されています。アクセラレーター対応プルーニング。
Convolutional neural networks have shown tremendous performance capabilities in computer vision tasks, but their excessive amounts of weight storage and arithmetic operations prevent them from being adopted in embedded environments. One of the solutions involves pruning, where certain unimportant weights are forced to have a value of zero. Many pruning schemes have been proposed, but these have mainly focused on the number of pruned weights. Previous pruning schemes scarcely considered ASIC or FPGA accelerator architectures. When these pruned networks are run on accelerators, the lack of consideration of the architecture causes some inefficiency problems, including internal buffer misalignments and load imbalances. This paper proposes a new pruning scheme that reflects accelerator architectures. In the proposed scheme, pruning is performed so that the same number of weights remain for each weight group corresponding to activations fetched simultaneously. In this way, the pruning scheme resolves the inefficiency problems, doubling the accelerator performance. Even with this constraint, the proposed pruning scheme reached a pruning ratio similar to that of previous unconstrained pruning schemes, not only on AlexNet and VGG16 but also on state-of-the-art very deep networks such as ResNet. Furthermore, the proposed scheme demonstrated a comparable pruning ratio on compact networks such as MobileNet and on slimmed networks that were already pruned in a channel-wise manner. In addition to improving the efficiency of previous sparse accelerators, it will be also shown that the proposed pruning scheme can be used to reduce the logic complexity of sparse accelerators.The pruned models are publicly available at https://github.com/HyeongjuKang/accelerator-aware-pruning.