InfoNCEの目的を備えた対照学習は、さまざまな自己管理型学習タスクで非常に成功しています。最近、CLIPモデルは、InfoNCEを使用して自然言語の監視から視覚的表現を学習するときに、ゼロショット転送学習で印象的な結果をもたらしました。ただし、相互情報量の下限としてのInfoNCEは、相互情報量が高い場合はパフォーマンスが低下することが示されています。対照的に、InfoLOOBの上限(1つを除外する)は、相互情報量が高い場合はうまく機能しますが、大きな変動と不安定性に悩まされます。現代のホップフィールドネットワークがInfoLOOBの目的で学習を後押しする、「対照的なリーブワンアウトブースト」(CLOOB)を紹介します。最新のホップフィールドネットワークは、元の埋め込みをInfoLOOB目標の取得された埋め込みに置き換えます。取得された埋め込みは、InfoLOOBに2つのアセットを提供します。まず、取得された埋め込みは、元の埋め込みよりもノイズが少なく、互いに類似しているため、InfoLOOBを安定させます。第二に、埋め込みの共分散構造は検索によって強化されるため、相関関係によって強化されます。概念キャプションとYFCCデータセットで学習した後、他のデータセットでのゼロショット転送学習パフォーマンスに関して、CLOOBとCLIPを比較します。 CLOOBは、考慮されているすべてのアーキテクチャとデータセットにわたって、ゼロショット転送学習でCLIPよりも一貫して優れています。
Contrastive learning with the InfoNCE objective is exceptionally successful in various self-supervised learning tasks. Recently, the CLIP model yielded impressive results on zero-shot transfer learning when using InfoNCE for learning visual representations from natural language supervision. However, InfoNCE as a lower bound on the mutual information has been shown to perform poorly for high mutual information. In contrast, the InfoLOOB upper bound (leave one out bound) works well for high mutual information but suffers from large variance and instabilities. We introduce "Contrastive Leave One Out Boost" (CLOOB), where modern Hopfield networks boost learning with the InfoLOOB objective. Modern Hopfield networks replace the original embeddings by retrieved embeddings in the InfoLOOB objective. The retrieved embeddings give InfoLOOB two assets. Firstly, the retrieved embeddings stabilize InfoLOOB, since they are less noisy and more similar to one another than the original embeddings. Secondly, they are enriched by correlations, since the covariance structure of embeddings is reinforced through retrievals. We compare CLOOB to CLIP after learning on the Conceptual Captions and the YFCC dataset with respect to their zero-shot transfer learning performance on other datasets. CLOOB consistently outperforms CLIP at zero-shot transfer learning across all considered architectures and datasets.