事前にトレーニングされたモデルを適応させる現在の手口には、すべてのバックボーンパラメータの更新、つまり完全な微調整が含まれます。このホワイトペーパーでは、視覚における大規模なTransformerモデルの完全な微調整に代わる、効率的かつ効果的な代替手段としてVisual Prompt Tuning(VPT)を紹介します。大規模な言語モデルの効率的な調整における最近の進歩からインスピレーションを得て、VPTは、モデルのバックボーンを凍結したまま、入力スペースにトレーニング可能なパラメーターを少量(モデルパラメーターの1%未満)しか導入しません。さまざまなダウンストリーム認識タスクに関する広範な実験を通じて、VPTが他のパラメーター効率の高いチューニングプロトコルと比較して大幅なパフォーマンスの向上を達成することを示します。最も重要なことは、VPTは、多くの場合、モデル容量とトレーニングデータスケール全体で完全な微調整を上回り、タスクごとのストレージコストを削減することです。
The current modus operandi in adapting pre-trained models involves updating all the backbone parameters, ie, full fine-tuning. This paper introduces Visual Prompt Tuning (VPT) as an efficient and effective alternative to full fine-tuning for large-scale Transformer models in vision. Taking inspiration from recent advances in efficiently tuning large language models, VPT introduces only a small amount (less than 1% of model parameters) of trainable parameters in the input space while keeping the model backbone frozen. Via extensive experiments on a wide variety of downstream recognition tasks, we show that VPT achieves significant performance gains compared to other parameter efficient tuning protocols. Most importantly, VPT even outperforms full fine-tuning in many cases across model capacities and training data scales, while reducing per-task storage cost.