対照的な自己監視学習(CSL)は、ラベルのないデータを介したモデルの事前トレーニングでますます注目を集めています。結果として得られるCSLモデルは、特徴空間に均一に散在するインスタンス識別視覚特徴を提供します。展開中の一般的な方法は、クロスエントロピーを使用してCSLモデルを直接微調整することですが、実際には最善の戦略ではない場合があります。クロスエントロピーはクラス間機能を分離する傾向がありますが、結果として得られるモデルには、CSLモデルに存在するクラス内機能の分散を減らす機能が制限されています。この論文では、対照学習を微調整に適用することがさらなる利益をもたらすかどうかを調査し、対照損失を最適化することは、微調整中の識別表現学習とモデル最適化の両方に利益をもたらすことを分析的に見つけます。これらの発見に触発されて、CSLモデルを微調整するための新しいアプローチであるコントラスト正則化調整(コア調整)を提案します。コアチューニングは、微調整の目的に単に対照的な損失を追加するのではなく、新しいハードペアマイニング戦略をさらに適用して、より効果的な対照的な微調整を行うとともに、決定境界を平滑化して、学習した識別機能空間をより有効に活用します。画像分類とセマンティックセグメンテーションに関する広範な実験により、コアチューニングの有効性が検証されます。
Contrastive self-supervised learning (CSL) has attracted increasing attention for model pre-training via unlabeled data. The resulted CSL models provide instance-discriminative visual features that are uniformly scattered in the feature space. During deployment, the common practice is to directly fine-tune CSL models with cross-entropy, which however may not be the best strategy in practice. Although cross-entropy tends to separate inter-class features, the resulting models still have limited capability for reducing intra-class feature scattering that exists in CSL models. In this paper, we investigate whether applying contrastive learning to fine-tuning would bring further benefits, and analytically find that optimizing the contrastive loss benefits both discriminative representation learning and model optimization during fine-tuning. Inspired by these findings, we propose Contrast-regularized tuning (Core-tuning), a new approach for fine-tuning CSL models. Instead of simply adding the contrastive loss to the objective of fine-tuning, Core-tuning further applies a novel hard pair mining strategy for more effective contrastive fine-tuning, as well as smoothing the decision boundary to better exploit the learned discriminative feature space. Extensive experiments on image classification and semantic segmentation verify the effectiveness of Core-tuning.