多くのコンピュータービジョンタスクで優れたパフォーマンスを発揮しますが、ディープコンボリューションニューラルネットワークは、リソースに制約のあるデバイスで圧縮されることがよく知られています。ほとんどの既存のネットワークプルーニング方法は、特に制約が変更された場合、骨の折れる人的努力と法外な計算リソースを必要とします。これにより、モデルをさまざまなデバイスに展開する必要がある場合に、モデル圧縮の適用が実質的に制限されます。その上、既存の方法は、欠落している理論的ガイダンスによって依然として挑戦されています。この論文では、自動モデル圧縮のための情報理論に触発された戦略を提案します。私たちの方法の背後にある原理は、情報ボトルネック理論です。つまり、隠された表現は互いに情報を圧縮する必要があります。したがって、層の重要性の安定した一般化された指標として、ネットワークのアクティブ化に関する正規化されたヒルベルトシュミット独立基準(nHSIC)を紹介します。特定のリソース制約が与えられると、HSICインジケーターを制約と統合して、アーキテクチャ検索問題を2次制約のある線形計画問題に変換します。このような問題は、数秒の凸最適化法によって簡単に解決されます。また、正規化されたHSICを最適化することで、異なるレイヤー間の相互情報量が同時に最小化されることを明らかにするための厳密な証明も提供します。検索プロセスなしで、私たちの方法は、最先端の圧縮アルゴリズムと比較して、より良い圧縮のトレードオフを実現します。たとえば、ResNet-50を使用すると、ImageNetで75.75のトップ1の精度で、45.3%-FLOPsの削減を達成できます。コードはhttps://github.com/MAC-AutoML/ITPruner/tree/masterで入手できます。
Despite superior performance on many computer vision tasks, deep convolution neural networks are well known to be compressed on devices that have resource constraints. Most existing network pruning methods require laborious human efforts and prohibitive computation resources, especially when the constraints are changed. This practically limits the application of model compression when the model needs to be deployed on a wide range of devices. Besides, existing methods are still challenged by the missing theoretical guidance. In this paper we propose an information theory-inspired strategy for automatic model compression. The principle behind our method is the information bottleneck theory, i.e., the hidden representation should compress information with each other. We thus introduce the normalized Hilbert-Schmidt Independence Criterion (nHSIC) on network activations as a stable and generalized indicator of layer importance. When a certain resource constraint is given, we integrate the HSIC indicator with the constraint to transform the architecture search problem into a linear programming problem with quadratic constraints. Such a problem is easily solved by a convex optimization method with a few seconds. We also provide a rigorous proof to reveal that optimizing the normalized HSIC simultaneously minimizes the mutual information between different layers. Without any search process, our method achieves better compression tradeoffs comparing to the state-of-the-art compression algorithms. For instance, with ResNet-50, we achieve a 45.3%-FLOPs reduction, with a 75.75 top-1 accuracy on ImageNet. Codes are avaliable at https://github.com/MAC-AutoML/ITPruner/tree/master.