アーキテクチャ設計とトレーニング パイプラインの大幅な改善により、コンピューター ビジョンは最近、ImageNet などの古典的なベンチマークの精度において劇的な進歩を遂げています。これらの高精度モデルは、プルーニングなどの標準的な手法を使用して圧縮するのが難しいと思われるため、導入が困難です。私たちは、最先端のアーキテクチャの圧縮率の限界を大幅に引き上げる新しい非構造化プルーニング フレームワークである Correlation Aware Pruner (CAP) を導入することで、この問題に対処します。私たちの方法は、2 つの技術的進歩に基づいています。1 つは、剪定プロセス自体中に複雑な重量相関を正確かつ効率的に処理できる、理論的に正当化された新しい剪定ツールと、圧縮後の回復のための効率的な微調整手順です。私たちは、ビジョン トランスフォーマー (ViT)、最新の CNN、ViT-CNN ハイブリッドなどのいくつかの最新のビジョン モデルに関する広範な実験を通じてアプローチを検証し、これらを高いスパース レベル (例 ≥75%) まで枝刈りできることを初めて示しました。精度への影響は低い (相対低下 1% 以下)。私たちのアプローチは構造化された枝刈りや量子化とも互換性があり、精度を損なうことなく実質的に 1.5 ~ 2.4 倍のスピードアップを実現できます。 CAP の精度とスケーラビリティをさらに示すために、私たちはこれを使用して、自己教師あり手法でトレーニングされた非常に正確な大規模ビジョン モデルが、無視できる程度の精度損失で中程度のスパース性まで枝刈りできることを初めて示しました。
Driven by significant improvements in architectural design and training pipelines, computer vision has recently experienced dramatic progress in terms of accuracy on classic benchmarks such as ImageNet. These highly-accurate models are challenging to deploy, as they appear harder to compress using standard techniques such as pruning. We address this issue by introducing the Correlation Aware Pruner (CAP), a new unstructured pruning framework which significantly pushes the compressibility limits for state-of-the-art architectures. Our method is based on two technical advancements: a new theoretically-justified pruner, which can handle complex weight correlations accurately and efficiently during the pruning process itself, and an efficient finetuning procedure for post-compression recovery. We validate our approach via extensive experiments on several modern vision models such as Vision Transformers (ViT), modern CNNs, and ViT-CNN hybrids, showing for the first time that these can be pruned to high sparsity levels (e.g. ≥75%) with low impact on accuracy (≤1% relative drop). Our approach is also compatible with structured pruning and quantization, and can lead to practical speedups of 1.5 to 2.4x without accuracy loss. To further showcase CAP's accuracy and scalability, we use it to show for the first time that extremely-accurate large vision models, trained via self-supervised techniques, can also be pruned to moderate sparsities, with negligible accuracy loss.