Center-wise Local Image Mixture For Contrastive Representation Learning
インスタンス識別に基づく対照学習は、アンカーサンプルのさまざまな変換を他のサンプルから区別するようにモデルをトレーニングします。これは、サンプル間の意味的類似性を考慮していません。この論文では、データセット内の他のサンプルからのポジティブを使用する、CLIMという名前の新しい種類の対照学習法を提案します。これは、アンカーのローカルの類似サンプルを検索し、対応するクラスターの中心に近いサンプルを選択することで実現されます。これを中心ごとのローカル画像選択と呼びます。選択されたサンプルは、平滑化正則化として実行されるデータ混合戦略を介してインスタンス化されます。その結果、CLIMは、ローカルの類似性とグローバルな集約の両方を堅牢な方法で促進します。これは、特徴の表現に有益であることがわかります。さらに、表現をスケール不変にすることができる多重解像度拡張を導入します。 ResNet-50を介した線形評価で75.5%のトップ1精度に到達し、1%のラベルのみで微調整すると59.3%のトップ1精度に到達します。
Contrastive learning based on instance discrimination trains model to discriminate different transformations of the anchor sample from other samples, which does not consider the semantic similarity among samples. This paper proposes a new kind of contrastive learning method, named CLIM, which uses positives from other samples in the dataset. This is achieved by searching local similar samples of the anchor, and selecting samples that are closer to the corresponding cluster center, which we denote as center-wise local image selection. The selected samples are instantiated via an data mixture strategy, which performs as a smoothing regularization. As a result, CLIM encourages both local similarity and global aggregation in a robust way, which we find is beneficial for feature representation. Besides, we introduce multi-resolution augmentation, which enables the representation to be scale invariant. We reach 75.5% top-1 accuracy with linear evaluation over ResNet-50, and 59.3% top-1 accuracy when fine-tuned with only 1% labels.
updated: Mon Oct 18 2021 02:15:36 GMT+0000 (UTC)
published: Thu Nov 05 2020 08:20:31 GMT+0000 (UTC)
