Prompt Regularization (ProReg) と呼ばれる、大規模なビジョン言語の事前トレーニング済みモデルをダウンストリーム タスクで微調整するための新しいパラダイムを提示します。下流のタスク データに簡単にオーバーフィットする従来の微調整とは異なり、ProReg は事前トレーニング済みのモデルに微調整を正則化するよう促すことで予測を使用します。動機は次のとおりです。大きなモデルに「[クラス] の写真」を促すことで、フィルリンの答えは事前トレーニングの百科事典の知識にのみ依存し、通常は偏っているタスク データの分布とは無関係になります。具体的には、微調整中にトレーニング サンプル予測が与えられた場合、最初にプロンプト予測の KullbackLeibler 損失とグラウンド トゥルース ラベルの Cross-Entropy 損失を計算し、それらを提案されたサンプルごとの適応トレードオフの重みと組み合わせます。これにより、事前トレーニング済みドメインとダウンストリーム ドメイン間の転送が自動的に調整されます。さまざまな配布外ベンチマークで、従来の微調整、ゼロ ショット プロンプト、プロンプト チューニング、およびその他の最先端の方法と比較して、ProReg の一貫した強力なパフォーマンスを示しています。
We present a new paradigm for fine-tuning large-scale visionlanguage pre-trained models on downstream task, dubbed Prompt Regularization (ProReg). Different from traditional fine-tuning which easily overfits to the downstream task data, ProReg uses the prediction by prompting the pretrained model to regularize the fine-tuning. The motivation is: by prompting the large model "a photo of a [CLASS]", the fil-lin answer is only dependent on the pretraining encyclopedic knowledge while independent of the task data distribution, which is usually biased. Specifically, given a training sample prediction during fine-tuning, we first calculate its KullbackLeibler loss of the prompt prediction and Cross-Entropy loss of the ground-truth label, and then combine them with a proposed sample-wise adaptive trade-off weight, which automatically adjusts the transfer between the pretrained and downstream domains. On various out-of-distribution benchmarks, we show the consistently strong performance of ProReg compared with conventional fine-tuning, zero-shot prompt, prompt tuning, and other state-of-the-art methods.