構造化重みプルーニングは、ストレージと計算の要件を減らし、推論を加速するためのDNNの代表的なモデル圧縮技術です。多数の柔軟なハイパーパラメータがあるため、自動ハイパーパラメータ決定プロセスが必要です。この作業では、次の主要なパフォーマンス改善を備えた自動構造化プルーニングフレームワークであるAutoCompressを提案します。(i)自動プロセスに構造化プルーニングスキームの組み合わせを効果的に組み込みます。 (ii)コアアルゴリズムとして最新のADMMベースの構造化ウェイトプルーニングを採用し、精度を損なうことなくさらに軽量化するための革新的な追加精製ステップを提案します。 (iii)経験に基づいたガイド付き検索によって強化された効果的な発見的検索方法を開発し、ターゲットのプルーニング問題との非互換性を持つ従来の深層強化学習技術を置き換えます。 CIFAR-10およびImageNetデータセットに関する広範な実験により、AutoCompressが、これまで達成できなかった重みとFLOPの数で超高枝刈り率を達成するための鍵であることが実証されています。例として、AutoCompressは、同じ精度で、最大33倍の枝刈り率(実際のパラメーターカウントの120倍の削減)で、自動モデル圧縮に関する以前の作業よりも優れています。 AutoCompressフレームワークから、スマートフォンでの実際の測定で、大幅な推論の高速化が観察されています。匿名リンクhttp://bit.ly/2VZ63dSでこの作品のすべてのモデルをリリースします。
Structured weight pruning is a representative model compression technique of DNNs to reduce the storage and computation requirements and accelerate inference. An automatic hyperparameter determination process is necessary due to the large number of flexible hyperparameters. This work proposes AutoCompress, an automatic structured pruning framework with the following key performance improvements: (i) effectively incorporate the combination of structured pruning schemes in the automatic process; (ii) adopt the state-of-art ADMM-based structured weight pruning as the core algorithm, and propose an innovative additional purification step for further weight reduction without accuracy loss; and (iii) develop effective heuristic search method enhanced by experience-based guided search, replacing the prior deep reinforcement learning technique which has underlying incompatibility with the target pruning problem. Extensive experiments on CIFAR-10 and ImageNet datasets demonstrate that AutoCompress is the key to achieve ultra-high pruning rates on the number of weights and FLOPs that cannot be achieved before. As an example, AutoCompress outperforms the prior work on automatic model compression by up to 33x in pruning rate (120x reduction in the actual parameter count) under the same accuracy. Significant inference speedup has been observed from the AutoCompress framework on actual measurements on smartphone. We release all models of this work at anonymous link: http://bit.ly/2VZ63dS.