事前にトレーニングされた大規模な視覚言語(VL)モデルは、いくつかの例を使用して新しいタスクを学習し、微調整することなく新しいタスクに一般化できます。ただし、これらのVLモデルは、サイズが非現実的で推論速度が遅いため、実際のアプリケーションに展開するのは困難です。この制限を解決するために、私たちは、最近の数ショットの学習者よりも比較的小さい、提案された方法であるFewVLMを使用して、VLタスクのプロンプトベースの低リソース学習を研究します。 FewVLMの場合、プレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を使用して、シーケンス間トランスフォーマーモデルを事前トレーニングします。さらに、数ショットのタスクに対する多様なプロンプトの効果を分析します。 VQAの実験結果は、プロンプトベースの学習を備えたFewVLMがFewVLMより18.2%ポイント大きいFrozenを上回り、246倍大きいモデルであるPICaと同等の結果を達成することを示しています。私たちの分析では、(1)プロンプトはゼロショットのパフォーマンスに大きく影響しますが、少数のショットのパフォーマンスにはわずかに影響します。 PrefixLMがキャプションのパフォーマンスを向上させながら、VQAタスクを支援します。私たちのコードはhttps://github.com/woojeongjin/FewVLMで公開されています
Large pre-trained vision-language (VL) models can learn a new task with a handful of examples and generalize to a new task without fine-tuning. However, these VL models are hard to deploy for real-world applications due to their impractically huge sizes and slow inference speed. To solve this limitation, we study prompt-based low-resource learning of VL tasks with our proposed method, FewVLM, relatively smaller than recent few-shot learners. For FewVLM, we pre-train a sequence-to-sequence transformer model with prefix language modeling (PrefixLM) and masked language modeling (MaskedLM). Furthermore, we analyze the effect of diverse prompts for few-shot tasks. Experimental results on VQA show that FewVLM with prompt-based learning outperforms Frozen which is 31x larger than FewVLM by 18.2% point and achieves comparable results to a 246x larger model, PICa. In our analysis, we observe that (1) prompts significantly affect zero-shot performance but marginally affect few-shot performance, (2) models with noisy prompts learn as quickly as hand-crafted prompts given larger training data, and (3) MaskedLM helps VQA tasks while PrefixLM boosts captioning performance. Our code is publicly available at https://github.com/woojeongjin/FewVLM