AI をユビキタスにするためには、ディープ ニューラル ネットワーク (DNN) の効率的な推論が不可欠です。スパース性と二値化という 2 つの重要なアルゴリズム技術が、効率的な推論を可能にする可能性を示しています。これらの技術は、ハードウェアとソフトウェアのレベルでの重みのスパース性と重みの繰り返しに変換され、非常に低い電力と遅延の要件で DNN の展開を可能にします。私たちは、同様の精度を維持しながら(重みのスパース性と重みの繰り返しの両方を一緒に利用することによって)効率をさらに向上させる、符号付きバイナリ ネットワークと呼ばれる新しい方法を提案します。私たちの方法は、バイナリの ImageNet および CIFAR10 データセットで同等の精度を達成し、69% のスパース性をもたらす可能性があります。これらのモデルを汎用デバイスに展開すると実際の高速化が観察され、この高い割合の非構造化スパース性が ASIC のエネルギー消費のさらなる削減につながる可能性があることを示しています。
Efficient inference of Deep Neural Networks (DNNs) is essential to making AI ubiquitous. Two important algorithmic techniques have shown promise for enabling efficient inference - sparsity and binarization. These techniques translate into weight sparsity and weight repetition at the hardware-software level enabling the deployment of DNNs with critically low power and latency requirements. We propose a new method called signed-binary networks to improve efficiency further (by exploiting both weight sparsity and weight repetition together) while maintaining similar accuracy. Our method achieves comparable accuracy on ImageNet and CIFAR10 datasets with binary and can lead to 69% sparsity. We observe real speedup when deploying these models on general-purpose devices and show that this high percentage of unstructured sparsity can lead to a further reduction in energy consumption on ASICs.