arXiv reaDer
視覚言語モデル適応のためのプロンプトチューニングベースのアダプター
Prompt Tuning based Adapter for Vision-Language Model Adaption
大規模な事前トレーニング済みの視覚言語 (VL) モデルは、さまざまなダウンストリーム タスクに適応する上で大きな期待を示しています。ただし、膨大な数のモデル パラメータがあるため、ネットワーク全体を微調整することは困難です。この問題に対処するために、プロンプト チューニングなどの効率的な適応方法が提案されています。マルチタスクの事前トレーニングされた初期化を使用した迅速な調整のアイデアを調査し、モデルのパフォーマンスを大幅に改善できることを発見しました。調査結果に基づいて、Prompt-Adapter と呼ばれる新しいモデルを導入します。これは、事前にトレーニングされたプロンプト チューニングと効率的な適応ネットワークを組み合わせたものです。私たちのアプローチは、特に 1 ショット、2 ショット、4 ショット、8 ショットの画像など、データ インスタンスが限られている設定で、公開されている 11 のデータセットでの少数ショットの画像分類で最先端の方法を打ち負かしました。私たちの提案した方法は、視覚言語モデルの効率的な適応のために、迅速な調整とパラメーター効率の高いネットワークを組み合わせることの可能性を示しています。コードは、https://github.com/Jingchensun/prompt_adapter で公開されています。
Large pre-trained vision-language (VL) models have shown significant promise in adapting to various downstream tasks. However, fine-tuning the entire network is challenging due to the massive number of model parameters. To address this issue, efficient adaptation methods such as prompt tuning have been proposed. We explore the idea of prompt tuning with multi-task pre-trained initialization and find it can significantly improve model performance. Based on our findings, we introduce a new model, termed Prompt-Adapter, that combines pre-trained prompt tunning with an efficient adaptation network. Our approach beat the state-of-the-art methods in few-shot image classification on the public 11 datasets, especially in settings with limited data instances such as 1 shot, 2 shots, 4 shots, and 8 shots images. Our proposed method demonstrates the promise of combining prompt tuning and parameter-efficient networks for efficient vision-language model adaptation. The code is publicly available at: https://github.com/Jingchensun/prompt_adapter.
updated: Fri Mar 24 2023 15:05:17 GMT+0000 (UTC)
published: Fri Mar 24 2023 15:05:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト