CLIP などの画像とテキストの対比モデルは、ゼロショット分類、画像とテキストの検索、転移学習などのさまざまな下流アプリケーションに役立ちます。しかし、これらの対照的に訓練された視覚言語モデルは、Winoground のような構成的な視覚言語タスクでは、ランダムな偶然と同等のパフォーマンスで失敗することがよくあります。私たちの論文では、この問題に取り組み、CLIP の構成視覚言語推論能力を向上させるために、SDS-CLIP と呼ばれるサンプル効率の高い軽量な方法を提案します。私たちの方法の中心となるアイデアは、微分可能な画像パラメータ化を使用して、視覚言語推論タスクに比較的優れている安定拡散などの大規模なテキストから画像への生成モデルからの蒸留目的で CLIP を微調整することです。挑戦的な Winoground 構成推論ベンチマークでは、私たちの方法はさまざまな CLIP モデルの絶対的な視覚言語パフォーマンスを最大 7% 向上させますが、ARO データセットでは、私たちの方法は視覚言語パフォーマンスを最大 3% 向上させます。 CLIP に視覚言語的推論を導入した副産物として、さまざまな下流データセットでゼロショットのパフォーマンスがわずかに向上することもわかりました。私たちの方法は、生成モデルから慎重に設計された蒸留目標を利用して、視覚言語推論能力を向上させて既存の対照的な画像テキストモデルを拡張できることを強化します。
Image-text contrastive models such as CLIP are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on compositional visio-linguistic tasks such as Winoground with performance equivalent to random chance. In our paper, we address this issue and propose a sample-efficient light-weight method called SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities of CLIP. The core idea of our method is to use differentiable image parameterizations to fine-tune CLIP with a distillation objective from large text-to-image generative models such as Stable-Diffusion which are relatively good at visio-linguistic reasoning tasks. On the challenging Winoground compositional reasoning benchmark, our method improves the absolute visio-linguistic performance of different CLIP models by up to 7%, while on the ARO dataset, our method improves the visio-linguistic performance by upto 3%. As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find that the zero-shot performance improves marginally on a variety of downstream datasets. Our method reinforces that carefully designed distillation objectives from generative models can be leveraged to extend existing contrastive image-text models with improved visio-linguistic reasoning capabilities.