自己教師あり学習は、ラベルのない大量のデータを活用する上で有望ですが、その進歩の多くは、これまでのところ、ImageNetなどの高度にキュレートされた事前トレーニングデータに限定されています。 YFCCなどのより大きく、キュレーションの少ない画像データセットからの対照学習の効果を調査し、結果として得られる表現品質に実際に大きな違いがあることを発見しました。このキュレーションギャップは、画像クラスの分布の変化(より多様で裾が重い)が原因であり、学習する関連性の低いネガティブサンプルが生じると仮定します。この仮説を、対照学習とクラスタリングベースのハードネガティブマイニングを交互に行う新しいアプローチであるDivide and Contrast(DnC)でテストします。キュレーションの少ないデータセットで事前トレーニングを行うと、DnCは、キュレーションされたデータセットの現在の最先端との競争力を維持しながら、ダウンストリームタスクでの自己教師あり学習のパフォーマンスを大幅に向上させます。
Self-supervised learning holds promise in leveraging large amounts of unlabeled data, however much of its progress has thus far been limited to highly curated pre-training data such as ImageNet. We explore the effects of contrastive learning from larger, less-curated image datasets such as YFCC, and find there is indeed a large difference in the resulting representation quality. We hypothesize that this curation gap is due to a shift in the distribution of image classes -- which is more diverse and heavy-tailed -- resulting in less relevant negative samples to learn from. We test this hypothesis with a new approach, Divide and Contrast (DnC), which alternates between contrastive learning and clustering-based hard negative mining. When pretrained on less curated datasets, DnC greatly improves the performance of self-supervised learning on downstream tasks, while remaining competitive with the current state-of-the-art on curated datasets.