arXiv reaDer
表現学習における対照的な引力と対照的な反発
Contrastive Attraction and Contrastive Repulsion for Representation Learning
対比学習 (CL) 手法は、自己監視方式でデータ表現を効果的に学習します。エンコーダは、1 対多のソフトマックス クロス エントロピー損失を介して、複数の負のサンプルに対して各正のサンプルを対比します。最近の CL メソッドは、大量のラベルなし画像データを活用することで、ImageNet などの大規模なデータセットで事前トレーニングした場合に有望な結果を達成しています。ただし、それらのほとんどは、同じインスタンスからの拡張ビューはポジティブなペアであり、他のインスタンスからのビューはネガティブなペアであると考えています。このようなバイナリ分割はサンプル間の関係を十分に考慮していないため、実際の画像で一般化するとパフォーマンスが低下する傾向があります。この論文では、CL のパフォーマンスをさらに向上させ、さまざまなデータセットに対する堅牢性を強化するために、独自のグループ内で陽性サンプルと陰性サンプルを個別に比較し、次に陽性グループと陰性グループ間の対比を進める二重 CL 戦略を提案します。この戦略は、対照的引力と対照的反発 (CACR) を使用して実現されます。これにより、クエリはより大きな力を発揮して、より遠くにある陽性サンプルを引き寄せるだけでなく、より近い陰性サンプルを反発することもできます。理論分析により、CACR は正の引力と負の反発によって CL の挙動を一般化していることが明らかになり、さらに正と負のペア内の内部対照関係を考慮して、サンプリングされた分布と真の分布の間のギャップを狭めることができます。これは、データセットがあまり厳選されていない場合に重要です。私たちの広範な実験により、CACR は CL ベンチマークで優れたパフォーマンスを実証するだけでなく、不均衡な画像データセットで一般化した場合に優れた堅牢性も示します。コードと事前トレーニングされたチェックポイントは、https://github.com/JegZheng/CACR-SSL で入手できます。
Contrastive learning (CL) methods effectively learn data representations in a self-supervision manner, where the encoder contrasts each positive sample over multiple negative samples via a one-vs-many softmax cross-entropy loss. By leveraging large amounts of unlabeled image data, recent CL methods have achieved promising results when pretrained on large-scale datasets, such as ImageNet. However, most of them consider the augmented views from the same instance are positive pairs, while views from other instances are negative ones. Such binary partition insufficiently considers the relation between samples and tends to yield worse performance when generalized on images in the wild. In this paper, to further improve the performance of CL and enhance its robustness on various datasets, we propose a doubly CL strategy that separately compares positive and negative samples within their own groups, and then proceeds with a contrast between positive and negative groups. We realize this strategy with contrastive attraction and contrastive repulsion (CACR), which makes the query not only exert a greater force to attract more distant positive samples but also do so to repel closer negative samples. Theoretical analysis reveals that CACR generalizes CL's behavior by positive attraction and negative repulsion, and it further considers the intra-contrastive relation within the positive and negative pairs to narrow the gap between the sampled and true distribution, which is important when datasets are less curated. With our extensive experiments, CACR not only demonstrates good performance on CL benchmarks, but also shows better robustness when generalized on imbalanced image datasets. Code and pre-trained checkpoints are available at https://github.com/JegZheng/CACR-SSL.
updated: Fri Aug 11 2023 19:13:23 GMT+0000 (UTC)
published: Sat May 08 2021 17:25:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト