最先端のゼロショットパフォーマンスを達成しているにもかかわらず、CLIPなどの既存のビジョン言語モデルは、真菌分類などのドメイン固有の分類タスクにはまだ達していません。数ショットの転送学習のコンテキストでは、従来の微調整では、表現力の高いモデルがトレーニングデータの疑似相関を利用するのを防ぐことができません。一方、モデルにとらわれないメタ学習(MAML)は、転移学習の自然な代替手段として提示されますが、暗黙的な2次最適化によるコストのかかる計算により、大規模なモデルやデータセットでの使用が制限されます。この作業では、均一なタスクサンプリングに基づくシンプルで効率的な微調整戦略を通じて、目に見えないタスクに関する既存の視覚言語モデルの一般化をさらに改善することを目指しています。この方法をモデルにとらわれないマルチタスク微調整(MAMF)と呼びます。 MAMLと比較すると、MAMFは2レベルの最適化を破棄し、1次勾配のみを使用するため、簡単にスケーラブルで計算効率が高くなります。均一なタスクサンプリング手順により、MAMFは、5つのベンチマークデータセットでの数ショット転送学習の従来の微調整方法よりも一貫して優れています。経験的に、1次MAMLの有効性は、事前トレーニングされたモデルのゼロショットパフォーマンスに大きく依存し、単純なアルゴリズムは、ゼロショットパフォーマンスが低いより困難なデータセットで1次MAMLよりも優れていることをさらに発見します。
Despite achieving state-of-the-art zero-shot performance, existing vision-language models, e.g., CLIP, still fall short of domain-specific classification tasks, e.g., Fungi Classification. In the context of few-shot transfer learning, traditional fine-tuning fails to prevent highly expressive model from exploiting spurious correlations in the training data. On the other hand, although model-agnostic meta-learning (MAML) presents as a natural alternative for transfer learning, the expensive computation due to implicit second-order optimization limits its use in large-scale models and datasets. In this work we aim to further improve the generalization of existing vision-language models on unseen tasks via a simple yet efficient fine-tuning strategy based on uniform task sampling. We term our method as Model-Agnostic Multitask Fine-tuning (MAMF). Compared with MAML, MAMF discards the bi-level optimization and uses only first-order gradients, which makes it easily scalable and computationally efficient. Due to the uniform task sampling procedure, MAMF consistently outperforms the classical fine-tuning method for few-shot transfer learning on five benchmark datasets. Empirically, we further discover that the effectiveness of first-order MAML is highly dependent on the zero-shot performance of the pretrained model, and our simple algorithm can outperform first-order MAML on more challenging datasets with low zero-shot performance.