arXiv reaDer
CPT:事前に訓練された視覚言語モデルのためのカラフルなプロンプトチューニング
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
事前トレーニング済みの視覚言語モデル(VL-PTM)は、画像データの自然言語を接地する有望な機能を示しており、さまざまなクロスモーダルタスクを容易にします。ただし、モデルの事前トレーニングと微調整の客観的な形式の間には大きなギャップがあり、ダウンストリームタスクのVL-PTMの視覚的な接地機能を刺激するために大量のラベル付きデータが必要になることに注意してください。この課題に対処するために、VL-PTMを調整するための新しいパラダイムであるクロスモーダルプロンプトチューニング(CPT、またはカラフルプロンプトチューニング)を紹介します。 -ギャップを最大限に軽減する、画像とテキストの参照マーカー。このように、私たちの迅速な調整アプローチにより、VL-PTMの強力な数ショットおよびゼロショットの視覚的接地機能が可能になります。包括的な実験結果は、迅速に調整されたVL-PTMが、微調整されたVL-PTMを大幅に上回っていることを示しています(たとえば、RefCOCO評価で1回のショットで、平均で17.3%の絶対精度の向上、73.8%の相対標準偏差の減少)。すべてのデータとコードは、将来の研究を容易にするために利用できるようになります。
Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for quantities of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, our prompt tuning approach enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that prompt tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). All the data and code will be available to facilitate future research.
updated: Fri Sep 24 2021 08:07:29 GMT+0000 (UTC)
published: Fri Sep 24 2021 08:07:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト