arXiv reaDer
視覚言語モデルを促す学習
Learning to Prompt for Vision-Language Models
視覚言語の事前トレーニングは、表現学習の有望な代替手段として最近浮上しています。これは、視覚的な概念として見られる固定された重みのセットを学習するために画像と個別のラベルを使用する従来の方法から、2つの別々のエンコーダーの画像と生のテキストを揃える方法に移行します。このようなパラダイムは、より広範な監視ソースの恩恵を受け、プロンプトと呼ばれる自然言語から視覚的な概念を正反対に生成できるため、ダウンストリームタスクへのゼロショット転送を可能にします。このホワイトペーパーでは、このようなモデルを実際に展開する際の主な課題は、迅速なエンジニアリングであることを確認します。これは、特にクラス名を囲むコンテキストワードに対して適切なプロンプトを設計するには、ドメインの専門知識が必要であり、ワードのわずかな変更がパフォーマンスに大きな影響を与える可能性があるため、通常、ワードの調整にかなりの時間がかかるためです。さらに、さまざまなダウンストリームタスクには特定の設計が必要であり、展開の効率がさらに低下します。この課題を克服するために、コンテキスト最適化(CoOp)という新しいアプローチを提案します。主なアイデアは、連続表現を使用してプロンプトでコンテキストをモデル化し、事前にトレーニングされたパラメーターを固定したまま、データからエンドツーエンドの学習を実行することです。このようにして、タスク関連のプロンプトの設計を完全に自動化できます。 11個のデータセットでの実験は、CoOpが事前にトレーニングされた視覚言語モデルをデータ効率の高い視覚学習者に効果的に変換することを示しています。ショット(たとえば、16ショットでは、平均ゲインは約17%で、最高は50%を超えます)。 CoOpは、分布シフトに対しても強力な堅牢性を示します。
Vision-language pre-training has recently emerged as a promising alternative for representation learning. It shifts from the tradition of using images and discrete labels for learning a fixed set of weights, seen as visual concepts, to aligning images and raw text for two separate encoders. Such a paradigm benefits from a broader source of supervision and allows zero-shot transfer to downstream tasks since visual concepts can be diametrically generated from natural language, known as prompt. In this paper, we identify that a major challenge of deploying such models in practice is prompt engineering. This is because designing a proper prompt, especially for context words surrounding a class name, requires domain expertise and typically takes a significant amount of time for words tuning since a slight change in wording could have a huge impact on performance. Moreover, different downstream tasks require specific designs, further hampering the efficiency of deployment. To overcome this challenge, we propose a novel approach named context optimization (CoOp). The main idea is to model context in prompts using continuous representations and perform end-to-end learning from data while keeping the pre-trained parameters fixed. In this way, the design of task-relevant prompts can be fully automated. Experiments on 11 datasets show that CoOp effectively turns pre-trained vision-language models into data-efficient visual learners, requiring as few as one or two shots to beat hand-crafted prompts with a decent margin and able to gain significant improvements when using more shots (e.g., at 16 shots the average gain is around 17% with the highest reaching over 50%). CoOp also exhibits strong robustness to distribution shift.
updated: Thu Sep 02 2021 17:57:31 GMT+0000 (UTC)
published: Thu Sep 02 2021 17:57:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト