画像分類、オブジェクト認識、音声認識などの畳み込みニューラルネットワークの成功を受けて、これらの計算集中型MLモデルを低コストで電力とエネルギーの制約が厳しい組み込みおよびモバイルシステムに展開する需要データセンターのスループットの向上に関しては、急速に成長しています。これにより、専用ハードウェアアクセラレータの研究が急増しました。通常、パフォーマンスはI / O帯域幅によって制限され、電力消費はオフチップメモリへのI / O転送によって支配され、オンチップメモリはシリコン領域の大部分を占めます。畳み込みニューラルネットワーク内に存在する機能マップのための、ハードウェアに優しい、ロスレスな新しい圧縮方式を導入および評価します。 65nmのコンプレッサーとデコンプレッサーのハードウェアアーキテクチャと合成結果を示します。 600MHzで1つの8ビットワード/サイクルのスループットで、それぞれ2.8kGEと3.0kGEのシリコン領域に収まります-同じスループットで7ビット未満の8ビット積和ユニットのサイズを合わせて。 AlexNetで5.1倍、VGG-16で4倍、ResNet-34で2.4倍、MobileNetV2で2.2倍の平均圧縮率を達成できることを示しています。既存の方法よりも45〜70%の向上です。私たちのアプローチは、さまざまな数値形式でも効果的に機能し、圧縮率のフレーム間変動が低く、推論中よりも優れている、トレーニング中の勾配マップ圧縮の圧縮係数を実現します。
In the wake of the success of convolutional neural networks in image classification, object recognition, speech recognition, etc., the demand for deploying these compute-intensive ML models on embedded and mobile systems with tight power and energy constraints at low cost, as well as for boosting throughput in data centers, is growing rapidly. This has sparked a surge of research into specialized hardware accelerators. Their performance is typically limited by I/O bandwidth, power consumption is dominated by I/O transfers to off-chip memory, and on-chip memories occupy a large part of the silicon area. We introduce and evaluate a novel, hardware-friendly, and lossless compression scheme for the feature maps present within convolutional neural networks. We present hardware architectures and synthesis results for the compressor and decompressor in 65nm. With a throughput of one 8-bit word/cycle at 600MHz, they fit into 2.8kGE and 3.0kGE of silicon area, respectively - together the size of less than seven 8-bit multiply-add units at the same throughput. We show that an average compression ratio of 5.1x for AlexNet, 4x for VGG-16, 2.4x for ResNet-34 and 2.2x for MobileNetV2 can be achieved - a gain of 45-70% over existing methods. Our approach also works effectively for various number formats, has a low frame-to-frame variance on the compression ratio, and achieves compression factors for gradient map compression during training that are even better than for inference.