ディープニューラルネットワーク(DNN)は、最近、多くの視覚認識タスクで大きな成功を収めています。ただし、既存のディープニューラルネットワークモデルは計算コストが高く、メモリを大量に消費するため、メモリリソースの少ないデバイスやレイテンシ要件が厳しいアプリケーションでの展開が妨げられます。したがって、自然な考え方は、モデルのパフォーマンスを大幅に低下させることなく、ディープネットワークでモデルの圧縮と加速を実行することです。過去5年間に、この分野で大きな進歩がありました。このホワイトペーパーでは、DNNモデルをコンパクト化および高速化するための最近の手法について説明します。一般に、これらの手法は4つのカテゴリに分けられます。パラメータの剪定と量子化、低ランク因数分解、転送/コンパクト畳み込みフィルター、知識の抽出です。パラメータのプルーニングと量子化の方法を最初に説明し、その後、他の手法を紹介します。各カテゴリについて、パフォーマンス、関連アプリケーション、利点、欠点についての洞察に富んだ分析も提供します。次に、動的容量ネットワークや確率的深さネットワークなど、ごく最近成功した方法をいくつか紹介します。その後、評価マトリックス、モデルのパフォーマンスを評価するために使用される主なデータセット、および最近のベンチマークの取り組みを調査します。最後に、このホワイトペーパーを締めくくり、残りの課題と今後の作業の方向性について説明します。
Deep neural networks (DNNs) have recently achieved great success in many visual recognition tasks. However, existing deep neural network models are computationally expensive and memory intensive, hindering their deployment in devices with low memory resources or in applications with strict latency requirements. Therefore, a natural thought is to perform model compression and acceleration in deep networks without significantly decreasing the model performance. During the past five years, tremendous progress has been made in this area. In this paper, we review the recent techniques for compacting and accelerating DNN models. In general, these techniques are divided into four categories: parameter pruning and quantization, low-rank factorization, transferred/compact convolutional filters, and knowledge distillation. Methods of parameter pruning and quantization are described first, after that the other techniques are introduced. For each category, we also provide insightful analysis about the performance, related applications, advantages, and drawbacks. Then we go through some very recent successful methods, for example, dynamic capacity networks and stochastic depths networks. After that, we survey the evaluation matrices, the main datasets used for evaluating the model performance, and recent benchmark efforts. Finally, we conclude this paper, discuss remaining the challenges and possible directions for future work.