arXiv reaDer
CLIP は概念をバインドしますか?大きな画像モデルにおける構成性の調査
Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
テキストと画像を組み合わせた大規模なニューラル ネットワーク モデルは、近年驚異的な進歩を遂げています。ただし、そのようなモデルが、構成要素「赤」と「立方体」を推論することによって「赤立方体」を正しく識別するなど、モデルが動作する概念の構成表現をどの程度エンコードするかについては、未解決の問題が残っています。この作業では、合成概念をエンコードし、構造に敏感な方法で変数をバインドする、大規模な事前トレーニング済みのビジョンおよび言語モデル (CLIP) の機能に焦点を当てます (たとえば、「球の背後にあるキューブ」と「球の背後にある球」を区別する)。キューブ」)。 CLIP のパフォーマンスを検査するために、構成分散セマンティクス モデル (CDSM) に関する研究からのいくつかのアーキテクチャを比較します。これは、埋め込み空間内で従来の構成言語構造を実装しようとする一連の研究です。 CLIP は単一オブジェクトの設定でコンセプトを構成できることがわかりましたが、コンセプトのバインディングが必要な状況では、パフォーマンスが劇的に低下します。同時に、CDSM のパフォーマンスも低く、チャンス レベルで最高のパフォーマンスが得られます。
Large-scale neural network models combining text and images have made incredible progress in recent years. However, it remains an open question to what extent such models encode compositional representations of the concepts over which they operate, such as correctly identifying ''red cube'' by reasoning over the constituents ''red'' and ''cube''. In this work, we focus on the ability of a large pretrained vision and language model (CLIP) to encode compositional concepts and to bind variables in a structure-sensitive way (e.g., differentiating ''cube behind sphere'' from ''sphere behind cube''). In order to inspect the performance of CLIP, we compare several architectures from research on compositional distributional semantics models (CDSMs), a line of research that attempts to implement traditional compositional linguistic structures within embedding spaces. We find that CLIP can compose concepts in a single-object setting, but in situations where concept binding is needed, performance drops dramatically. At the same time, CDSMs also perform poorly, with best performance at chance level.
updated: Wed Mar 29 2023 15:34:23 GMT+0000 (UTC)
published: Tue Dec 20 2022 18:46:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト