arXiv reaDer
CREPE: 視覚言語基盤モデルは構成的に推論できますか?
CREPE: Can Vision-Language Foundation Models Reason Compositionally?
人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的な性質です。しかし、大規模な視覚と言語の事前トレーニングによってパフォーマンスが向上したにもかかわらず、大規模なデータセット上で 4 つのアルゴリズムでトレーニングされた 7 つのアーキテクチャ全体で、構成性に苦戦していることがわかりました。この結論に到達するために、認知科学文献によって特定された構成性の 2 つの重要な側面、体系性と生産性を測定する新しい構成性評価ベンチマーク CREPE を導入します。系統性を測定するために、CREPE は 370,000 を超える画像とテキストのペアと 3 つの異なる可視と未可視の分割を含むテスト データセットで構成されます。 3 つの分割は、CC-12M、YFCC-15M、LAION-400M の 3 つの一般的なトレーニング データセットでトレーニングされたモデルをテストするように設計されています。また、ペアのサブセットに対して 325K、316K、および 309K のハード ネガティブ キャプションも生成します。生産性をテストするために、CREPE には 9 つの異なる複雑さを持つ 17,000 の画像とテキストのペアに加え、アトミック、スワッピング、および否定フォイルを備えた 183,000 のハード ネガティブ キャプションが含まれています。データセットは、ビジュアル ゲノム シーン グラフと領域説明を再利用し、手作りのテンプレートと GPT-3 を適用することによって生成されます。体系性については、新しい構成が検索セットを支配する場合、モデルのパフォーマンスが一貫して低下し、Recall@1 が最大 12% 低下することがわかりました。生産性の観点からは、複雑さが増すにつれてモデルの検索成功率は低下し、複雑度が高くなるとランダムな確率に近づくことがよくあります。これらの結果は、モデルとトレーニング データセットのサイズに関係なく当てはまります。
A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, we find that: across 7 architectures trained with 4 algorithms on massive datasets, they struggle at compositionality. To arrive at this conclusion, we introduce a new compositionality evaluation benchmark, CREPE, which measures two important aspects of compositionality identified by cognitive science literature: systematicity and productivity. To measure systematicity, CREPE consists of a test dataset containing over 370K image-text pairs and three different seen-unseen splits. The three splits are designed to test models trained on three popular training datasets: CC-12M, YFCC-15M, and LAION-400M. We also generate 325K, 316K, and 309K hard negative captions for a subset of the pairs. To test productivity, CREPE contains 17K image-text pairs with nine different complexities plus 183K hard negative captions with atomic, swapping and negation foils. The datasets are generated by repurposing the Visual Genome scene graphs and region descriptions and applying handcrafted templates and GPT-3. For systematicity, we find that model performance decreases consistently when novel compositions dominate the retrieval set, with Recall@1 dropping by up to 12%. For productivity, models' retrieval success decays as complexity increases, frequently nearing random chance at high complexity. These results hold regardless of model and training dataset size.
updated: Tue May 16 2023 16:27:08 GMT+0000 (UTC)
published: Tue Dec 13 2022 19:17:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト