転移学習は、基礎モデルの時代に人気のあるタスク適応方法になりました。ただし、多くの基盤モデルは大規模なストレージとコンピューティング リソースを必要とするため、既製の展開は現実的ではありません。プルーニングや量子化などのトレーニング後の圧縮技術は、導入コストの削減に役立ちます。残念ながら、その結果生じるパフォーマンスの低下により、そのような技術の使いやすさと利点が制限されます。このパフォーマンスのギャップを埋めるために、トレーニング後の効果的なネットワーク圧縮を可能にするシンプルな微調整フレームワークである CrAFT を提案します。 CrAFT では、ユーザーはシャープネス最小化目標とともにデフォルトの微調整スケジュールを採用するだけで、同時にタスクへの適応と圧縮への適合性が容易になります。事前トレーニング中に適用される従来のシャープネス最小化手法とは対照的に、CrAFT アプローチでは微調整が 1 つの GPU で数分または数時間以内に完了するため、追加されるトレーニングのオーバーヘッドは無視できます。ワンショット プルーニングとトレーニング後の量子化を大幅に向上できる汎用ツールである CrAFT の有効性は、さまざまなターゲット タスクにおける畳み込みベースとアテンション ベースの両方のビジョン基盤モデルで実証されています。コードは公開されます。
Transfer learning has become a popular task adaptation method in the era of foundation models. However, many foundation models require large storage and computing resources, which makes off-the-shelf deployment impractical. Post-training compression techniques such as pruning and quantization can help lower deployment costs. Unfortunately, the resulting performance degradation limits the usability and benefits of such techniques. To close this performance gap, we propose CrAFT, a simple fine-tuning framework that enables effective post-training network compression. In CrAFT, users simply employ the default fine-tuning schedule along with sharpness minimization objective, simultaneously facilitating task adaptation and compression-friendliness. Contrary to the conventional sharpness minimization techniques, which are applied during pretraining, the CrAFT approach adds negligible training overhead as fine-tuning is done in under a couple of minutes or hours with a single GPU. The effectiveness of CrAFT, which is a general-purpose tool that can significantly boost one-shot pruning and post-training quantization, is demonstrated on both convolution-based and attention-based vision foundation models on a variety of target tasks. The code will be made publicly available.