自己監視と自然言語監視は、さまざまなダウンストリーム タスクに優れた汎用画像エンコーダーをトレーニングするための 2 つの刺激的な方法として浮上しています。 M3AE や SLIP などの最近の研究では、これらのアプローチを効果的に組み合わせることができることが示唆されていますが、最も顕著なのは、それらの結果が小さな事前トレーニング データセット (<50M サンプル) を使用しており、大規模なレジーム (>100M サンプル) を効果的に反映していないことです。は、これらのアプローチに一般的に使用されます。ここでは、はるかに大量のデータでトレーニングした場合に、同様のアプローチが効果的かどうかを調査します。 2 つの最先端のアプローチの組み合わせ: マスクされた自動エンコーダー、MAE、および対照的な言語画像の事前トレーニングである CLIP は、1,130 万の画像とテキストのペアのコーパスでトレーニングされた場合、CLIP よりも利点がありますが、ほとんどまたはまったくありません。 1.4B 画像の大規模なコーパスでトレーニングした場合、CLIP よりも優れています (一般的なビジョン タスクのスイートで評価した場合)。私たちの研究は、大規模な画像とテキストのトレーニングに対する自己監視の有効性 (またはその欠如) について、非常に必要とされている明確さを提供します。
Self supervision and natural language supervision have emerged as two exciting ways to train general purpose image encoders which excel at a variety of downstream tasks. Recent works such as M3AE and SLIP have suggested that these approaches can be effectively combined, but most notably their results use small pre-training datasets (<50M samples) and don't effectively reflect the large-scale regime (>100M examples) that is commonly used for these approaches. Here we investigate whether a similar approach can be effective when trained with a much larger amount of data. We find that a combination of two state of the art approaches: masked auto-encoders, MAE and contrastive language image pre-training, CLIP provides a benefit over CLIP when trained on a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B images. Our work provides some much needed clarity into the effectiveness (or lack thereof) of self supervision for large-scale image-text training.