構成的推論は、人間の視覚的知性の特徴です。大規模な視覚言語モデルのサイズにもかかわらず、オブジェクトを属性と組み合わせて単純な構成を表現するのに苦労しています。この合成機能の欠如を測定するために、属性でローカライズされたオブジェクトを合成するためのテキストから画像への検索ベンチマークである Cola を設計しました。 Cola をテストベッドとして使用して、事前にトレーニングされた視覚言語モデルを適応させて、複数のオブジェクトに関連付けられた複数の属性について構成的に推論するためのモデリング設計を調査します。 3 つの微調整データセットと 2 つのテスト ベンチマーク (Cola と CREPE) を使用して、2 つの独創的な視覚言語モデルで 6 つの微調整戦略を調べます。驚くべきことに、私たちの最適な微調整戦略は、事前トレーニング中に画像と言語をばらばらにエンコードする 151M パラメータの CLIP と、事前トレーニング中にマルチモーダル トランスフォーマー エンコーダーを使用して視覚と言語の両方のモダリティに対応する 241M パラメータの FLAVA を実行するように改善します。この最適な微調整戦略は、事前トレーニング済みモデルによって生成された画像と言語の両方の機能を共同で処理する軽量のマルチモーダル アダプターです。これは、プロンプト/微調整、または同等の数の単峰レイヤーの調整などの一般的な戦略よりもうまく機能することを示しています。
Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers.