CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
CLIPは、ゼロショット転送学習タスクで印象的な結果をもたらし、BERTやGPT3のような基盤モデルと見なされています。豊富な表現を持つCLIPビジョンモデルは、特定のタスクで微調整される前に、InfoNCEの目的と自然言語の監視を使用して事前にトレーニングされています。 CLIPはゼロショット転送学習に優れていますが、説明するのに苦労しています。つまり、いくつかの特定の機能に焦点を合わせすぎているか、データ内の共分散構造を十分に抽出していません。少数の機能のみに焦点を当てるという前者の問題は、InfoNCEの目的の飽和によって引き起こされます。これは、相互情報量が高い場合に深刻です。共分散構造を十分に活用できないという後者の問題は、特徴の関連付けと共起を抽出する際の欠陥によって引き起こされます。 InfoLOOBの目的と最新のホップフィールドネットワークを使用する「対照的なLeaveOne Out Boost」(CLOOB)を紹介します。 InfoNCEとは対照的に、InfoLOOBの目的(1つをアウトバウンドのままにする)は飽和せず、高度な相互情報量に対して適切に機能します。一方、最新のホップフィールドネットワークでは、格納された特徴の共起を介して共分散構造が強化された、取得された埋め込みを使用できます。他のデータセットでのゼロショット転送学習パフォーマンスに関して、Conceptual CaptionsとYFCCデータセットで事前トレーニングした後、CLOOBとCLIPを比較します。 CLOOBは、考慮されているすべてのアーキテクチャとデータセットにわたって、ゼロショット転送学習でCLIPよりも一貫して優れています。
CLIP yielded impressive results on zero-shot transfer learning tasks and is considered as a foundation model like BERT or GPT3. CLIP vision models that have a rich representation are pre-trained using the InfoNCE objective and natural language supervision before they are fine-tuned on the particular tasks. Though CLIP excels at zero-shot transfer learning, it suffers from explaining away, that is, it focuses too much on few specific features and/or insufficiently extracts the covariance structure in the data. The former problem of focusing on few features only is caused by a saturation of the InfoNCE objective, which is severe for high mutual information. The latter problem of insufficiently exploiting the covariance structure is caused by a deficiency in extracting feature associations and co-occurrences. We introduce "Contrastive Leave One Out Boost" (CLOOB), which uses the InfoLOOB objective and modern Hopfield networks. In contrast to InfoNCE, the InfoLOOB objective (leave one out bound) does not saturate and works well for high mutual information. Modern Hopfield networks, on the other hand, allow to use retrieved embeddings, which have an enriched covariance structure via co-occurrences of stored features. We compare CLOOB to CLIP after pre-training on the Conceptual Captions and the YFCC dataset with respect to their zero-shot transfer learning performance on other datasets. CLOOB consistently outperforms CLIP at zero-shot transfer learning across all considered architectures and datasets.
updated: Fri Feb 11 2022 09:49:52 GMT+0000 (UTC)
published: Thu Oct 21 2021 17:50:48 GMT+0000 (UTC)
