arXiv reaDer
視覚言語基盤モデルの同変類似性
Equivariant Similarity for Vision-Language Foundation Models
この研究では、主要なトレーニング目的であるだけでなく、下流のタスクをサポートするためのコア配信でもあるマルチモーダル類似性関数に特に焦点を当てて、視覚言語基盤モデル (VLM) における等分散の概念を探ります。一致したペアを類似として分類し、一致しないペアを非類似として分類するだけの既存の画像とテキストの類似性目標とは異なり、同等性は、類似性がセマンティックの変化に応じて忠実に変化することも必要とします。これにより、VLM は、微妙で目に見えないマルチモーダルな構成によりよく一般化できます。ただし、セマンティック変化のグラウンド トゥルースを収集するのが難しいため、等分散のモデル化は困難です。たとえば、犬に関する画像とテキストのペアが与えられた場合、ピクセルが犬から猫に変わると、類似度がどの程度変化するかは不明です。この目的のために、EqSim を提案します。これは、任意の 2 つの一致するトレーニング ペアから効率的に計算でき、既存の画像テキスト検索の微調整に簡単にプラグインできる正則化損失です。一方、VLM の等分散性をさらに診断するために、新しい挑戦的なベンチマーク EqBen を提示します。既存の評価セットと比較して、EqBen は最初に「視覚的最小限の変更」に焦点を当てています。大規模な実験により、現在の VLM に等分散性がないことが示され、EqSim の有効性が検証されています。コードは https://github.com/Wangt-CN/EqBen で入手できます。
This study explores the concept of equivariance in vision-language foundation models (VLMs), focusing specifically on the multimodal similarity function that is not only the major training objective but also the core delivery to support downstream tasks. Unlike the existing image-text similarity objective which only categorizes matched pairs as similar and unmatched pairs as dissimilar, equivariance also requires similarity to vary faithfully according to the semantic changes. This allows VLMs to generalize better to nuanced and unseen multimodal compositions. However, modeling equivariance is challenging as the ground truth of semantic change is difficult to collect. For example, given an image-text pair about a dog, it is unclear to what extent the similarity changes when the pixel is changed from dog to cat? To this end, we propose EqSim, a regularization loss that can be efficiently calculated from any two matched training pairs and easily pluggable into existing image-text retrieval fine-tuning. Meanwhile, to further diagnose the equivariance of VLMs, we present a new challenging benchmark EqBen. Compared to the existing evaluation sets, EqBen is the first to focus on "visual-minimal change". Extensive experiments show the lack of equivariance in current VLMs and validate the effectiveness of EqSim. Code is available at https://github.com/Wangt-CN/EqBen.
updated: Sat Mar 25 2023 13:22:56 GMT+0000 (UTC)
published: Sat Mar 25 2023 13:22:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト