With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations
インスタンス識別に基づく自己教師あり学習アルゴリズムは、同じインスタンスの事前定義された変換に対して不変であるようにエンコーダーをトレーニングします。ほとんどの方法では、同じ画像のさまざまなビューを対照的な損失のポジティブとして扱いますが、データセット内の他のインスタンスからのポジティブを使用することに関心があります。私たちの方法である視覚表現の最近傍対照学習(NNCLR)は、潜在空間のデータセットから最近傍をサンプリングし、それらをポジティブとして扱います。これにより、事前定義された変換よりも多くのセマンティックバリエーションが提供されます。対照的な損失の正として最近傍を使用すると、ImageNet分類のパフォーマンスが71.7%から75.6%に大幅に向上し、以前の最先端の方法よりも優れていることがわかります。半教師あり学習ベンチマークでは、53.8%から56.5%まで、1%のImageNetラベルしか使用できない場合に、パフォーマンスが大幅に向上します。転移学習ベンチマークでは、12のダウンストリームデータセットのうち8つで、私たちの方法が最先端の方法(ImageNetによる教師あり学習を含む)よりも優れています。さらに、私たちの方法が複雑なデータ拡張にあまり依存していないことを経験的に示しています。ランダムなクロップのみを使用してトレーニングすると、ImageNet Top-1の精度が2.1%低下するだけです。
Self-supervised learning algorithms based on instance discrimination train encoders to be invariant to pre-defined transformations of the same instance. While most methods treat different views of the same image as positives for a contrastive loss, we are interested in using positives from other instances in the dataset. Our method, Nearest-Neighbor Contrastive Learning of visual Representations (NNCLR), samples the nearest neighbors from the dataset in the latent space, and treats them as positives. This provides more semantic variations than pre-defined transformations. We find that using the nearest-neighbor as positive in contrastive losses improves performance significantly on ImageNet classification, from 71.7% to 75.6%, outperforming previous state-of-the-art methods. On semi-supervised learning benchmarks we improve performance significantly when only 1% ImageNet labels are available, from 53.8% to 56.5%. On transfer learning benchmarks our method outperforms state-of-the-art methods (including supervised learning with ImageNet) on 8 out of 12 downstream datasets. Furthermore, we demonstrate empirically that our method is less reliant on complex data augmentations. We see a relative reduction of only 2.1% ImageNet Top-1 accuracy when we train using only random crops.
updated: Thu Oct 07 2021 17:57:19 GMT+0000 (UTC)
published: Thu Apr 29 2021 17:56:08 GMT+0000 (UTC)
