最新のディープニューラルネットワークは、過剰パラメーター化に依存して最先端の一般化を実現しています。ただし、過剰パラメータ化モデルは計算コストがかかります。多くの場合、ネットワークプルーニングは、展開のためにそれほど要求されないモデルを取得するために使用されます。きめの細かい剪定は、パラメーターテンソルの個々の重みを削除し、精度をほとんど低下させずに高いモデル圧縮率を実現できます。ただし、コンピューティングデータフローに不規則性が生じ、実際にはモデル推論の効率が向上しないことがよくあります。グループ内のネットワークの重みを削除することで十分な推論の高速化を実現しながら、粗粒度モデルの剪定フィルター全体では、多くの場合、精度が大幅に低下します。この作業は、クロスチャネルイントラグループ(CCI)スパース構造を導入します。これにより、卓越したモデルパフォーマンスを維持しながら、細粒度プルーニングの非効率性を防止できます。次に、CCI-Sparsityによって課せられた制約の下でうまく機能するように設計された新しいトレーニングアルゴリズムを紹介します。一連の比較実験を通じて、提案されたCCI-Sparsity構造と対応するプルーニングアルゴリズムは、将来の適切なハードウェアアクセラレーションを考慮して、実質的なマージンで推論効率が先行技術よりも優れていることを示しています。
Modern deep neural networks rely on overparameterization to achieve state-of-the-art generalization. But overparameterized models are computationally expensive. Network pruning is often employed to obtain less demanding models for deployment. Fine-grained pruning removes individual weights in parameter tensors and can achieve a high model compression ratio with little accuracy degradation. However, it introduces irregularity into the computing dataflow and often does not yield improved model inference efficiency in practice. Coarse-grained model pruning, while realizing satisfactory inference speedup through removal of network weights in groups, e.g. an entire filter, often lead to significant accuracy degradation. This work introduces the cross-channel intragroup (CCI) sparsity structure, which can prevent the inference inefficiency of fine-grained pruning while maintaining outstanding model performance. We then present a novel training algorithm designed to perform well under the constraint imposed by the CCI-Sparsity. Through a series of comparative experiments we show that our proposed CCI-Sparsity structure and the corresponding pruning algorithm outperform prior art in inference efficiency by a substantial margin given suited hardware acceleration in the future.