対照学習は、ラベルのないデータから表現を学習する際の重要なツールとなっています。これは主に、同じ画像からのビューなどのポジティブ データ ペア間の距離を最小化し、異なる画像からのビューなどネガティブ データ ペア間の距離を最大化するという考えに基づいています。この論文では、対比学習目標の新しいバリエーションである Group Ordering Constraints (GroCo) を提案します。これは、正と負のペアの距離をソートし、負のペアよりも距離が大きい正のペアの数に基づいてそれぞれの損失を計算するというアイデアを活用します。ペアであるため、正しく順序付けされません。この目的を達成するために、GroCo 損失は微分可能な並べ替えネットワークに基づいています。これにより、指定されたスコアのセットを並べ替えることによって生成される微分可能な並べ替え行列を、それぞれのグラウンド トゥルースの並べ替え行列に照合することにより、並べ替え監視付きのトレーニングが可能になります。このアイデアを複数の正と負のペアのグループごとに事前順序付けされた入力に適用すると、強い正と負を暗黙的に強調して GroCo 損失を導入でき、局所近傍の最適化が向上します。提案された定式化をさまざまな自己教師あり学習ベンチマークで評価し、バニラ対照学習と比較して結果の向上につながるだけでなく、線形探索において同等の手法と競合するパフォーマンスを示し、k-NN のパフォーマンスにおいて現在の手法を上回ることを示します。
Contrastive learning has become an important tool in learning representations from unlabeled data mainly relying on the idea of minimizing distance between positive data pairs, e.g., views from the same images, and maximizing distance between negative data pairs, e.g., views from different images. This paper proposes a new variation of the contrastive learning objective, Group Ordering Constraints (GroCo), that leverages the idea of sorting the distances of positive and negative pairs and computing the respective loss based on how many positive pairs have a larger distance than the negative pairs, and thus are not ordered correctly. To this end, the GroCo loss is based on differentiable sorting networks, which enable training with sorting supervision by matching a differentiable permutation matrix, which is produced by sorting a given set of scores, to a respective ground truth permutation matrix. Applying this idea to groupwise pre-ordered inputs of multiple positive and negative pairs allows introducing the GroCo loss with implicit emphasis on strong positives and negatives, leading to better optimization of the local neighborhood. We evaluate the proposed formulation on various self-supervised learning benchmarks and show that it not only leads to improved results compared to vanilla contrastive learning but also shows competitive performance to comparable methods in linear probing and outperforms current methods in k-NN performance.