CLIP のような事前訓練された大規模なビジョン言語モデルは、目に見えないタスクに対して強力な一般化を示しています。しかし、目に見えない敵対的摂動は、新しいタスクでの CLIP のパフォーマンスを大幅に低下させる可能性があります。この作業では、ゼロショットの敵対的ロバスト性のために大規模モデルを適応させる問題を特定し、調査します。最初に、モデルの適応中に、モデルのゼロショット敵対的ロバスト性に影響を与える 2 つの重要な要因 (トレーニングの損失と適応方法) を特定します。次に、テキストガイド付きの対照的な敵対的トレーニング損失を提案します。これは、テキストの埋め込みと敵対的な視覚的特徴を、トレーニングデータの小さなセットでの対照的な学習に合わせます。このトレーニング損失を、モデルの微調整とビジュアル プロンプト チューニングの 2 つの適応方法に適用します。ビジュアル プロンプト チューニングはテキストがない場合により効果的であり、微調整はテキスト ガイダンスが存在する場合に有効であることがわかります。全体として、私たちのアプローチはCLIPよりもゼロショットの敵対的堅牢性を大幅に改善し、ImageNetおよび15のゼロショットデータセットよりも平均31ポイント以上改善されています.この研究が、大規模モデルのゼロショットの敵対的堅牢性の理解に光を当てることができることを願っています。
Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of adapting large-scale models for zero-shot adversarial robustness. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.