ディープニューラルネットワーク(DNN)のパフォーマンスは、ネットワークの深さと幅の増加に伴い、近年向上し続けています。携帯電話などのエッジデバイスでDNNを有効にするために、研究者はプルーニング、量子化、因数分解などのネットワーク圧縮方法をいくつか提案しました。因数分解ベースのアプローチの中で、低ランク近似は、その強固な理論的根拠と効率的な実装のために広く採用されています。いくつかの以前の研究は、低ランク分解により事前訓練されたモデルを直接近似しようとしました。ただし、パラメーターの小さな近似誤差は、大きな予測損失をリップルする可能性があります。その結果、通常、パフォーマンスは大幅に低下し、精度を回復するには洗練された微調整が必要です。低ランク近似をトレーニングから分離することは最適ではないと主張します。これまでの研究とは異なり、この論文では低ランク近似と正則化をトレーニングに統合しています。低ランクの近似とトレーニングを繰り返すトレーニングランクプルーニング(TRP)を提案します。 TRPは元のネットワークの容量を維持しながら、トレーニング中に低ランクの制約を課します。確率的準勾配降下最適化核正則化は、TRPの低ランクをさらに促進するために利用されます。 TRPでトレーニングされたネットワークは、本質的に低ランク構造であり、無視できるほどのパフォーマンス損失で近似でき、低ランク近似後の微調整は不要です。これらの方法は、CIFAR-10およびImageNetで包括的に評価され、低ランク近似を使用した以前の圧縮方法よりも優れています。コードが利用可能です:https://github.com/yuhuixu1993/Trained-Rank-Pruning
The performance of Deep Neural Networks (DNNs) keeps elevating in recent years with increasing network depth and width. To enable DNNs on edge devices like mobile phones, researchers proposed several network compression methods including pruning, quantization and factorization. Among the factorization-based approaches, low-rank approximation has been widely adopted because of its solid theoretical rationale and efficient implementations. Several previous works attempted to directly approximate a pre-trained model by low-rank decomposition; however, small approximation errors in parameters can ripple a large prediction loss. As a result, performance usually drops significantly and a sophisticated fine-tuning is required to recover accuracy. We argue that it is not optimal to separate low-rank approximation from training. Unlike previous works, this paper integrates low rank approximation and regularization into the training. We propose Trained Rank Pruning (TRP), which iterates low rank approximation and training. TRP maintains the capacity of original network while imposes low-rank constraints during training. A stochastic sub-gradient descent optimized nuclear regularization is utilized to further encourage low rank in TRP. The TRP trained network has low-rank structure in nature, and can be approximated with negligible performance loss, eliminating fine-tuning after low rank approximation. The methods are comprehensively evaluated on CIFAR-10 and ImageNet, outperforming previous compression methods using low rank approximation. Code is available: https://github.com/yuhuixu1993/Trained-Rank-Pruning