畳み込みニューラルネットワーク(CNN)は、視覚処理タスクを解決するための主要なニューラルネットワークアーキテクチャになっています。推論のためのCNNの遍在的な使用を妨げる主な障害の1つは、比較的高いメモリ帯域幅要件であり、これはハードウェアアクセラレータの主要なエネルギー消費者およびスループットボトルネックになる可能性があります。したがって、効率的な特徴マップ圧縮方法は、実質的なパフォーマンスの向上をもたらします。量子化を意識したトレーニングアプローチに触発され、推論中の特徴マップのより良い圧縮を可能にする方法でモデルをトレーニングすることを含む圧縮対応トレーニング(CAT)メソッドを提案します。私たちの方法は、低エントロピー特徴マップを達成するためにモデルを訓練します。そして、それは古典的な変換コーディング方法を使用して推論時に効率的な圧縮を可能にします。 CATは、量子化に関して報告される最新の結果を大幅に改善します。たとえば、ResNet-34では、値あたり1.79ビットのみの平均表現で73.1%の精度(ベースラインから0.2%の劣化)を達成しています。リファレンス実装は、https://github.com/CAT-teams/CATのペーパーに付属しています
Convolutional neural networks (CNNs) have become the dominant neural network architecture for solving visual processing tasks. One of the major obstacles hindering the ubiquitous use of CNNs for inference is their relatively high memory bandwidth requirements, which can be a main energy consumer and throughput bottleneck in hardware accelerators. Accordingly, an efficient feature map compression method can result in substantial performance gains. Inspired by quantization-aware training approaches, we propose a compression-aware training (CAT) method that involves training the model in a way that allows better compression of feature maps during inference. Our method trains the model to achieve low-entropy feature maps, which enables efficient compression at inference time using classical transform coding methods. CAT significantly improves the state-of-the-art results reported for quantization. For example, on ResNet-34 we achieve 73.1% accuracy (0.2% degradation from the baseline) with an average representation of only 1.79 bits per value. Reference implementation accompanies the paper at https://github.com/CAT-teams/CAT