arXiv reaDer
意味の線形空間: 視覚言語モデルにおける構成構造
Linear Spaces of Meanings: Compositional Structures in Vision-Language Models
事前トレーニング済みの視覚言語モデル (VLM) からのデータ埋め込みの構成構造を調査します。伝統的に、構成性は、既存の語彙からの単語の埋め込みに対する代数演算に関連付けられてきました。対照的に、エンコーダーからの表現を、埋め込み空間内のより小さなベクトルセットの組み合わせとして近似しようとします。これらのベクトルは、モデルの埋め込み空間内で概念を直接生成するための「理想的な単語」と見なすことができます。最初に、幾何学的な観点から構成構造を理解するためのフレームワークを提示します。次に、これらの合成構造が VLM 埋め込みの場合に確率的に何を伴うかを説明し、実際にそれらが発生する理由についての直感を提供します。最後に、CLIP の埋め込みでこれらの構造を経験的に調査し、分類、バイアス緩和、検索などのさまざまな視覚言語タスクを解決するための有用性を評価します。私たちの結果は、埋め込みベクトルに対する単純な線形代数演算が、VLM の動作を調整するための構成的で解釈可能な方法として使用できることを示しています。
We investigate compositional structures in data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate representations from an encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as "ideal words" for generating concepts directly within the embedding space of the model. We first present a framework for understanding compositional structures from a geometric perspective. We then explain what these compositional structures entail probabilistically in the case of VLM embeddings, providing intuitions for why they arise in practice. Finally, we empirically explore these structures in CLIP's embeddings and we evaluate their usefulness for solving different vision-language tasks such as classification, debiasing, and retrieval. Our results show that simple linear algebraic operations on embedding vectors can be used as compositional and interpretable methods for regulating the behavior of VLMs.
updated: Mon Mar 27 2023 01:02:17 GMT+0000 (UTC)
published: Tue Feb 28 2023 08:11:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト