arXiv reaDer
知識に基づくコンテキスト最適化による視覚言語プロンプトのチューニング
Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
プロンプト チューニングは、タスク関連のテキスト トークンを使用して、事前トレーニング済みの視覚言語モデル (VLM) をダウンストリーム タスクに適応させる効果的な方法です。代表的な CoOp ベースの作業では、学習可能なテキスト トークンをクラス トークンと組み合わせて、特定のテキスト知識を取得します。しかし、特定のテキスト知識は、強い一般化能力を持つ本質的な一般的なテキスト知識を忘れているため、目に見えないクラスへのより悪い一般化です。この問題に取り組むために、目に見えないクラスの学習可能なプロンプトの一般化機能を強化するために、新しい知識ガイド付きコンテキスト最適化 (KgCoOp) を導入します。 KgCoOp の重要な洞察は、学習可能なプロンプトと手作りのプロンプトとの間の不一致を減らすことで、重要な知識を忘れるのを軽減できるということです。特に、KgCoOp は、学習したプロンプトと手作りのプロンプトによって生成されたテキスト埋め込みの間の不一致を最小限に抑えます。最後に、対照的な損失に KgCoOp を追加すると、表示されているタスクと表示されていないタスクの両方に対して識別的なプロンプトを作成できます。いくつかのベンチマークの広範な評価により、提案されたナレッジガイド付きコンテキスト最適化が迅速なチューニングの効率的な方法であることが示されました。つまり、より少ないトレーニング時間でより良いパフォーマンスを実現します。
Prompt tuning is an effective way to adapt the pre-trained visual-language model (VLM) to the downstream task using task-related textual tokens. Representative CoOp-based work combines the learnable textual tokens with the class tokens to obtain specific textual knowledge. However, the specific textual knowledge is the worse generalization to the unseen classes because it forgets the essential general textual knowledge having a strong generalization ability. To tackle this issue, we introduce a novel Knowledge-guided Context Optimization (KgCoOp) to enhance the generalization ability of the learnable prompt for unseen classes. The key insight of KgCoOp is that forgetting about essential knowledge can be alleviated by reducing the discrepancy between the learnable prompt and the hand-crafted prompt. Especially, KgCoOp minimizes the discrepancy between the textual embeddings generated by learned prompts and the hand-crafted prompts. Finally, adding the KgCoOp upon the contrastive loss can make a discriminative prompt for both seen and unseen tasks. Extensive evaluation of several benchmarks demonstrates that the proposed Knowledge-guided Context Optimization is an efficient method for prompt tuning, i.e., achieves better performance with less training time.
updated: Thu Mar 23 2023 14:04:23 GMT+0000 (UTC)
published: Thu Mar 23 2023 14:04:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト