arXiv reaDer
感度を意識した視覚パラメータによる効率的な微調整
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning
Visual Parameter-Efficient Fine-Tuning (PEFT) は、事前トレーニングされたビジョン モデルを下流のタスクに適応させるための完全な微調整の強力な代替手段となっています。これにより、少数のパラメータのみが調整され、大部分のパラメータは保存を容易にするために凍結されます。負担と最適化の難しさ。しかし、既存の PEFT 手法は、人間のヒューリスティックのみに依存して、トレーニング可能なパラメータをさまざまなタスクにわたって同じ位置に導入し、ドメイン ギャップを無視しています。この目的を達成するために、我々は、新しい感度を意識した視覚的パラメータ効率微調整(SPT)スキームを提案することにより、トレーニング可能なパラメータをどこに導入し、どのように割り当てるかを研究します。これは、所望の調整可能なパラメータが与えられた場合に、タスク固有の重要な位置にトレーニング可能なパラメータを適応的に割り当てるものです。予算。具体的には、当社の SPT はまず、データに依存した方法で特定のタスクの調整が必要な機密パラメータを迅速に特定します。次に、私たちの SPT は、既存の構造化された調整方法 (LoRA [23] またはアダプター [22]) を利用して、選択された高感度パラメータの直接調整を置き換えることにより、高感度パラメータの数が事前に定義されたしきい値を超える重み行列の表現能力をさらに強化します。パラメータ(非構造化チューニング)を予算内で調整します。幅広い下流認識タスクに関する広範な実験により、当社の SPT が既存の PEFT 手法を補完し、そのパフォーマンスを大幅に向上させることが示されています。たとえば、SPT は、監視済みの事前トレーニング済み ViT-B/16 バックボーンを備えたアダプターを平均 4.2% および 1.4% 向上させます。トップ 1 の精度で、FGVC ベンチマークと VTAB-1k ベンチマークでそれぞれ SOTA パフォーマンスに達します。ソースコードはhttps://github.com/ziplab/SPTにあります
Visual Parameter-Efficient Fine-Tuning (PEFT) has become a powerful alternative for full fine-tuning so as to adapt pre-trained vision models to downstream tasks, which only tunes a small number of parameters while freezing the vast majority ones to ease storage burden and optimization difficulty. However, existing PEFT methods introduce trainable parameters to the same positions across different tasks depending solely on human heuristics and neglect the domain gaps. To this end, we study where to introduce and how to allocate trainable parameters by proposing a novel Sensitivity-aware visual Parameter-efficient fine-Tuning (SPT) scheme, which adaptively allocates trainable parameters to task-specific important positions given a desired tunable parameter budget. Specifically, our SPT first quickly identifies the sensitive parameters that require tuning for a given task in a data-dependent way. Next, our SPT further boosts the representational capability for the weight matrices whose number of sensitive parameters exceeds a pre-defined threshold by utilizing existing structured tuning methods, e.g., LoRA [23] or Adapter [22], to replace directly tuning the selected sensitive parameters (unstructured tuning) under the budget. Extensive experiments on a wide range of downstream recognition tasks show that our SPT is complementary to the existing PEFT methods and largely boosts their performance, e.g., SPT improves Adapter with supervised pre-trained ViT-B/16 backbone by 4.2% and 1.4% mean Top-1 accuracy, reaching SOTA performance on FGVC and VTAB-1k benchmarks, respectively. Source code is at https://github.com/ziplab/SPT
updated: Thu Aug 31 2023 08:17:57 GMT+0000 (UTC)
published: Wed Mar 15 2023 12:34:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト