最先端のゼロショットパフォーマンスを達成しているにもかかわらず、既存のビジョン言語モデルは、ドメイン固有の問題に対する数ショットの転送能力にまだ達していません。従来の微調整では、表現力の高いモデルが疑似相関を利用するのを防ぐことができないことがよくあります。モデルにとらわれないメタ学習(MAML)は、数ショットの転移学習の自然な代替手段として提示されますが、暗黙的な2次最適化によるコストのかかる計算により、CLIPなどの大規模な視覚言語モデルでの使用が制限されます。多くの文献が代替の最適化戦略の探求に専念してきましたが、以前はMAMLでのデータ前処理の一部としてのみ表示されていた、効果的な数ショットの転移学習、タスクサンプリングに向けた別の重要な側面を特定します。タスクサンプリングの影響を示すために、モデルにとらわれないマルチタスク微調整(MAMF)という単純なアルゴリズムを提案します。これは、複数のタスクを均一にサンプリングする場合にのみ従来の微調整を区別します。その単純さにもかかわらず、MAMFは、5つの数ショットの視覚言語分類タスクで従来の微調整よりも一貫して優れていることを示しています。さらに、MAMLのバイレベル最適化の有効性は、数ショットの視覚言語分類のコンテキストでのタスクのゼロショットパフォーマンスに非常に敏感であることを示します。このホワイトペーパーの目的は、数ショットの学習を機能させるものについての新しい洞察を提供し、より優れたタスクサンプリング戦略を調査するためのより多くの研究を奨励することです。
Despite achieving state-of-the-art zero-shot performance, existing vision-language models still fall short of few-shot transfer ability on domain-specific problems. Classical fine-tuning often fails to prevent highly expressive models from exploiting spurious correlations. Although model-agnostic meta-learning (MAML) presents as a natural alternative for few-shot transfer learning, the expensive computation due to implicit second-order optimization limits its use on large-scale vision-language models such as CLIP. While much literature has been devoted to exploring alternative optimization strategies, we identify another essential aspect towards effective few-shot transfer learning, task sampling, which is previously only be viewed as part of data pre-processing in MAML. To show the impact of task sampling, we propose a simple algorithm, Model-Agnostic Multitask Fine-tuning (MAMF), which differentiates classical fine-tuning only on uniformly sampling multiple tasks. Despite its simplicity, we show that MAMF consistently outperforms classical fine-tuning on five few-shot vision-language classification tasks. We further show that the effectiveness of the bi-level optimization in MAML is highly sensitive to the zero-shot performance of a task in the context of few-shot vision-language classification. The goal of this paper is to provide new insights on what makes few-shot learning work, and encourage more research into investigating better task sampling strategies.