arXiv reaDer
Improving Contrastive Learning by Visualizing Feature Transformation
ポジティブペア間の距離を最小化し、ネガティブペア間の距離を最大化することを目的とした対照学習は、ポジティブペアとネガティブ(pos / neg)ペアの設計が重要な教師なし特徴学習に広く成功裏に適用されています。この論文では、一般的な対照的な自己教師あり学習を強化するために、データ拡張とは異なる機能レベルのデータ操作を考案しようとしています。この目的のために、最初にpos / negスコア(Pos / negスコアはpos / negペアのコサイン類似性を示します)分布の視覚化スキームを設計します。これにより、学習プロセスを分析、解釈、および理解できます。私たちの知る限り、これはその種の最初の試みです。さらに重要なことに、このツールを活用することで、いくつかの重要な観察結果が得られます。これは、ポジティブの外挿を含む、新しい機能変換の提案に影響を与えます。ハードポジティブはモデルをよりビュー不変にすることができるため、この操作はハードポジティブを作成して学習を促進します。さらに、ネガ間の補間を提案します。これにより、多様なネガが提供され、モデルがより識別可能になります。これは、両方の課題に同時に対処する最初の試みです。実験結果は、提案された特徴変換が、MoCoベースラインよりもImageNet-100で少なくとも6.0%の精度を、MoCoV2ベースラインよりもImageNet-1Kで約2.0%の精度を向上させることができることを示しています。ダウンストリームタスクへの転送は、モデルのタスクバイアスが少ないことを示しています。視覚化ツールとコード。
Contrastive learning, which aims at minimizing the distance between positive pairs while maximizing that of negative ones, has been widely and successfully applied in unsupervised feature learning, where the design of positive and negative (pos/neg) pairs is one of its keys. In this paper, we attempt to devise a feature-level data manipulation, differing from data augmentation, to enhance the generic contrastive self-supervised learning. To this end, we first design a visualization scheme for pos/neg score (Pos/neg score indicates cosine similarity of pos/neg pair.) distribution, which enables us to analyze, interpret and understand the learning process. To our knowledge, this is the first attempt of its kind. More importantly, leveraging this tool, we gain some significant observations, which inspire our novel Feature Transformation proposals including the extrapolation of positives. This operation creates harder positives to boost the learning because hard positives enable the model to be more view-invariant. Besides, we propose the interpolation among negatives, which provides diversified negatives and makes the model more discriminative. It is the first attempt to deal with both challenges simultaneously. Experiment results show that our proposed Feature Transformation can improve at least 6.0% accuracy on ImageNet-100 over MoCo baseline, and about 2.0% accuracy on ImageNet-1K over the MoCoV2 baseline. Transferring to the downstream tasks successfully demonstrate our model is less task-bias. Visualization tools and codes .
updated: Fri Aug 06 2021 07:26:08 GMT+0000 (UTC)
published: Fri Aug 06 2021 07:26:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト