ビジョンモデルのサイズは、特にVision Transformerの登場後、過去数年間で指数関数的に増大しました。これにより、学習アダプターレイヤーやビジュアルプロンプトトークンなどのパラメーター効率の高いチューニング方法の開発が促進されました。これにより、モデルパラメーターのごく一部をトレーニングできますが、事前トレーニングから得られた大部分は凍結されます。ただし、適切な調整方法を設計することは簡単ではありません。各ダウンストリームデータセットにカスタム設計が必要になることは言うまでもなく、設計の選択肢の長いリストを試す必要があるかもしれません。この論文では、既存のパラメータ効率の高い調整方法を「プロンプトモジュール」と見なし、ニューラルアーキテクチャ検索アルゴリズムを介して大規模ビジョンモデルのプロンプトモジュールの最適な設計を学習する新しいアプローチであるNeural prOmpt seArcH(NOAH)を提案します。 、特にダウンストリームデータセットごとに。 20を超えるビジョンデータセットで広範な実験を行うことにより、NOAHが(i)個々のプロンプトモジュールよりも優れており、(ii)優れた数ショットの学習能力があり、(iii)ドメインで一般化できることを示しています。コードとモデルはhttps://github.com/Davidzhangyuanhan/NOAHで入手できます。
The size of vision models has grown exponentially over the last few years, especially after the emergence of Vision Transformer. This has motivated the development of parameter-efficient tuning methods, such as learning adapter layers or visual prompt tokens, which allow a tiny portion of model parameters to be trained whereas the vast majority obtained from pre-training are frozen. However, designing a proper tuning method is non-trivial: one might need to try out a lengthy list of design choices, not to mention that each downstream dataset often requires custom designs. In this paper, we view the existing parameter-efficient tuning methods as "prompt modules" and propose Neural prOmpt seArcH (NOAH), a novel approach that learns, for large vision models, the optimal design of prompt modules through a neural architecture search algorithm, specifically for each downstream dataset. By conducting extensive experiments on over 20 vision datasets, we demonstrate that NOAH (i) is superior to individual prompt modules, (ii) has a good few-shot learning ability, and (iii) is domain-generalizable. The code and models are available at https://github.com/Davidzhangyuanhan/NOAH.