Perceptually Aligned Gradients (PAG) は、堅牢な画像分類モデルで観察される興味深い特性を指し、その入力勾配は人間の知覚およびポーズの意味論的な意味と一致します。この現象は研究で大きな注目を集めていますが、単峰性の視覚のみのアーキテクチャの文脈でのみ研究されました。この研究では、PAG の研究を、さまざまな画像テキスト タスクとアプリケーションの基礎を形成するビジョン言語アーキテクチャに拡張します。 CLIP の敵対的ロバスト化微調整を通じて、堅牢な視覚言語モデルがバニラの対応物とは対照的に PAG を示すことを実証します。この研究は、いくつかの視覚言語生成タスクにおける CLIP with PAG (CLIPAG) の利点を明らかにしています。特に、「プラグアンドプレイ」方式で CLIPAG をシームレスに統合すると、ビジョン言語生成アプリケーションの大幅な改善につながることがわかりました。さらに、CLIPAG は、その PAG プロパティを利用して、通常は巨大なジェネレーターを必要とする生成モデルなしでテキストから画像への生成を可能にします。
Perceptually Aligned Gradients (PAG) refer to an intriguing property observed in robust image classification models, wherein their input gradients align with human perception and pose semantic meanings. While this phenomenon has gained significant research attention, it was solely studied in the context of unimodal vision-only architectures. In this work, we extend the study of PAG to Vision-Language architectures, which form the foundations for diverse image-text tasks and applications. Through an adversarial robustification finetuning of CLIP, we demonstrate that robust Vision-Language models exhibit PAG in contrast to their vanilla counterparts. This work reveals the merits of CLIP with PAG (CLIPAG) in several vision-language generative tasks. Notably, we show that seamlessly integrating CLIPAG in a "plug-n-play" manner leads to substantial improvements in vision-language generative applications. Furthermore, leveraging its PAG property, CLIPAG enables text-to-image generation without any generative model, which typically requires huge generators.