arXiv reaDer
視覚言語の事前訓練済みモデルは構成可能な原始的な概念を学習しますか?
Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?
ビジョン言語 (VL) 事前トレーニング済みモデルは、マルチモーダル推論およびゼロショット認識タスクで優れたパフォーマンスを達成しました。これらの VL モデルの多くは、インターネットから取得したラベルのない画像とキャプションのペアで事前トレーニングされています。この論文では、色、形、オブジェクト部分の属性などの原始的な概念の表現が、これらの事前学習済み VL モデル内で自動的に現れるかどうかを研究します。これを調査するために、私たちは 2 段階のフレームワークである構成コンセプト マッピング (CompMap) を提案します。 CompMap は、まず VL モデルにテキスト プロンプトで原始的な概念の活性化を生成するように要求し、次に原始的な概念の活性化 (例: 黒い尾や赤い翼の可能性) を複合概念 (例: 赤い翼のクロウタドリ) にマッピングする合成モデルを構築する方法を学習します。 )。我々は、合成モデルがグラウンドトゥルースのプリミティブ概念から確実に学習できることを示します。したがって、VL 事前学習モデルで実際に原始概念が出現した場合、その原始概念の活性化を使用して、専門家によって設計されたものと同様の構成モデルを学習できるという仮説を立てます。類似度を測定するための定量的な指標を提案し、この指標を解釈可能性指標と呼びます。また、原始概念の活性化と学習された構成モデルを使用して複合概念を予測するときの分類精度も測定し、それを有用性メトリックとして参照します。私たちの研究では、最先端の VL 事前トレーニング済みモデルが、CUB データセットでのきめ細かい視覚認識や、MIT-States データセットでの構成一般化タスクに非常に役立つ原始的な概念を学習していることが明らかになりました。ただし、定性分析では、学習された組成モデルの解釈可能性が低いことが観察されています。私たちの結果は、既存の VL モデルの限界と、原始的な概念の習得を促進する事前トレーニング目標の必要性を明らかにしています。
Vision-language (VL) pretrained models have achieved impressive performance on multimodal reasoning and zero-shot recognition tasks. Many of these VL models are pretrained on unlabeled image and caption pairs from the internet. In this paper, we study whether representations of primitive concepts--such as colors, shapes, or the attributes of object parts--emerge automatically within these pretrained VL models. We propose a two-step framework, Compositional Concept Mapping (CompMap), to investigate this. CompMap first asks a VL model to generate primitive concept activations with text prompts, and then learns to construct a composition model that maps the primitive concept activations (e.g. the likelihood of black tail or red wing) to composite concepts (e.g. a red-winged blackbird). We show that a composition model can be reliably learn from ground truth primitive concepts. We thus hypothesize that if primitive concepts indeed emerge in a VL pretrained model, its primitive concept activations can be used to learn a composition model similar to the one designed by experts. We propose a quantitative metric to measure the degree of similarity, and refer to the metric as the interpretability metric. We also measure the classification accuracy when using the primitive concept activations and the learned composition model to predict the composite concepts, and refer to it as the usefulness metric. Our study reveals that state-of-the-art VL pretrained models learn primitive concepts that are highly useful for fine-grained visual recognition on the CUB dataset, and compositional generalization tasks on the MIT-States dataset. However, we observe that the learned composition models have low interpretability in our qualitative analyses. Our results reveal the limitations of existing VL models, and the necessity of pretraining objectives that encourage the acquisition of primitive concepts.
updated: Sun May 28 2023 03:37:47 GMT+0000 (UTC)
published: Thu Mar 31 2022 17:59:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト