モデルの圧縮は、ビジョン モデルの効率を最適化するための事実上のアプローチになっています。最近では、大規模な事前トレーニングのコストが非常に高いため、ほとんどの圧縮作業の焦点がトレーニング後のシナリオに移っています。これにより、トレーニング後に効果的に圧縮できる圧縮可能なモデルをゼロから構築する必要が生じました。この作業では、望ましい圧縮性と一般化機能を備えたモデルを作成できる、事前トレーニング中に適用されるシャープネス最小化ネットワーク変換 (SNT) メソッドを提示します。私たちのアプローチをよく知られているシャープネス最小化オプティマイザーと比較して、フラットな損失状況を作成する際の有効性を検証します。私たちの知る限りでは、SNT はアーキテクチャ変換を使用して圧縮に適したネットワークを生成する最初の事前トレーニング方法です。 SNT はさまざまな圧縮タスクとネットワーク バックボーン全体で一般化され、ADAM ベースラインを一貫して改善し、ウェイト プルーニングで最大 2% の精度向上、量子化で 5.4% の精度向上を実現することがわかりました。結果を再現するためのコードは公開されます。
Model compression has become the de-facto approach for optimizing the efficiency of vision models. Recently, the focus of most compression efforts has shifted to post-training scenarios due to the very high cost of large-scale pretraining. This has created the need to build compressible models from scratch, which can effectively be compressed after training. In this work, we present a sharpness-minimizing network transformation (SNT) method applied during pretraining that can create models with desirable compressibility and generalizability features. We compare our approach to a well-known sharpness-minimizing optimizer to validate its efficacy in creating a flat loss landscape. To the best of our knowledge, SNT is the first pretraining method that uses an architectural transformation to generate compression-friendly networks. We find that SNT generalizes across different compression tasks and network backbones, delivering consistent improvements over the ADAM baseline with up to 2% accuracy improvement on weight pruning and 5.4% accuracy improvement on quantization. Code to reproduce our results will be made publicly available.