arXiv reaDer
イントラモーダルとクロスモーダルのハードネガティブを対比して視覚言語の詳細な理解を強化する
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Fine-grained Understanding
現在の視覚言語モデル (VLM) は、さまざまな視覚言語タスクにわたって優れたパフォーマンスを示していますが、詳細な理解には苦労しています。この問題は、事前トレーニング データセットにおける画像キャプションの調整が弱いことと、関係、アクション、属性などの微妙な基礎要素を区別できない単純化された対照的な目標に起因します。その結果、モデルはバッグオブワード表現を学習する傾向があります。これらの課題を軽減するために、モデルの能力を増強するために自動的に生成されたハード ネガを利用して、カリキュラム学習として機能する適応しきい値を備えたモーダル内コントラスト損失と独自のクロスモーダル ランク損失を導入します。追加の注釈やパラメータを必要としない私たちの戦略は、画像とテキストのコントラスト損失でトレーニングされた任意の VLM に組み込むことができます。 CLIP に適用すると、私たちの方法は 3 つのきめの細かいベンチマークで大幅な改善につながり、きめの細かい推論に関する最先端のムーデルである X-VLM のパフォーマンスも向上します。
Current Vision and Language Models (VLMs) demonstrate strong performance across various vision-language tasks, yet they struggle with fine-grained understanding. This issue stems from weak image-caption alignment in pretraining datasets and a simplified contrastive objective that fails to distinguish nuanced grounding elements such as relations, actions, and attributes. As a result, the models tend to learn bag-of-words representations. To mitigate these challenges, we introduce an intra-modal contrastive loss and a unique cross-modal rank loss with an adaptive threshold that serves as curriculum learning, utilizing our automatically generated hard negatives to augment the model's capacity. Our strategy, which does not necessitate additional annotations or parameters, can be incorporated into any VLM trained with an image-text contrastive loss. Upon application to CLIP, our method leads to significant improvements on three fine-grained benchmarks, and it also enhances the performance of X-VLM, which is the state-of-art moodel on fine-grained reasoning.
updated: Thu Jun 15 2023 03:26:28 GMT+0000 (UTC)
published: Thu Jun 15 2023 03:26:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト