Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
LoRA、プロンプト、アダプターなどのさまざまな適応方法が、特定の領域で事前トレーニングされた視覚言語モデルのパフォーマンスを向上させるために提案されています。分布シフトに対するこれらの適応方法の堅牢性は研究されていません。この研究では、マルチモーダル破損下で 4 つの視覚言語データセットにわたって広く使用されている 11 の適応手法の堅牢性を評価します。具体的には、96 個の視覚的破損と 87 個のテキスト破損を含む 7 つのベンチマーク データセットを導入し、さまざまな適応方法の堅牢性、利用可能な適応例の影響、適応中のトレーニング可能なパラメーター サイズの影響を調査します。私たちの分析により、次のことが明らかになりました。 1) 適応方法は、視覚的な破損よりもテキストの破損に敏感です。 2) 完全な微調整では、常に最高の堅牢性が得られるわけではありません。その代わりに、アダプターは同等のクリーンなパフォーマンスでより優れた堅牢性を実現できます。 3) 予想に反して、我々の調査結果は、適応データとパラメータの数を増やしても堅牢性の向上が保証されないことを示しています。むしろ、堅牢性がさらに低下します。この研究が、堅牢なマルチモーダル適応手法の開発における将来の研究に役立つことを願っています。この調査で使用されたベンチマーク、コード、データセットには、 からアクセスできます。
Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been studied. In this study, we assess the robustness of 11 widely-used adaptation methods across 4 vision-language datasets under multimodal corruptions. Concretely, we introduce 7 benchmark datasets, including 96 visual and 87 textual corruptions, to investigate the robustness of different adaptation methods, the impact of available adaptation examples, and the influence of trainable parameter size during adaptation. Our analysis reveals that: 1) Adaptation methods are more sensitive to text corruptions than visual corruptions. 2) Full fine-tuning does not consistently provide the highest robustness; instead, adapters can achieve better robustness with comparable clean performance. 3) Contrary to expectations, our findings indicate that increasing the number of adaptation data and parameters does not guarantee enhanced robustness; instead it results in even lower robustness. We hope this study could benefit future research in the development of robust multimodal adaptation methods. The benchmark, code, and dataset used in this study can be accessed at .
updated: Sat Nov 18 2023 08:51:08 GMT+0000 (UTC)
published: Sat Jun 03 2023 11:05:04 GMT+0000 (UTC)
