arXiv reaDer
対比学習に良いビューをもたらすものは何か
What makes for good views for contrastive learning
 データの複数のビュー間の対照的な学習は、最近、自己教師付き表現学習の分野で最先端のパフォーマンスを実現しています。その成功にもかかわらず、さまざまなビューの選択の影響はあまり研究されていません。このペーパーでは、ビュー選択の重要性をよりよく理解するために経験的分析を使用し、タスク関連の情報はそのままに、ビュー間の相互情報(MI)を減らす必要があると主張します。この仮説を検証するために、MIの削減を目的として効果的なビューを学習する教師なしフレームワークと半教師付きフレームワークを考案します。また、MIを削減する方法としてデータ拡張を検討し、データ拡張の増加が実際にMIの削減につながり、ダウンストリーム分類の精度が向上することを示します。副産物として、ImageNet分類の教師なし事前トレーニングで新しい最先端の精度も実現しています(ResNet-50で73%のトップ1線形読み取り)。さらに、モデルをPASCAL VOCオブジェクト検出およびCOCOインスタンスセグメンテーションに転送すると、監視付き事前トレーニングよりも一貫してパフォーマンスが向上します。コード:http://github.com/HobbitLong/PyContrast
Contrastive learning between multiple views of the data has recently achieved state of the art performance in the field of self-supervised representation learning. Despite its success, the influence of different view choices has been less studied. In this paper, we use empirical analysis to better understand the importance of view selection, and argue that we should reduce the mutual information (MI) between views while keeping task-relevant information intact. To verify this hypothesis, we devise unsupervised and semi-supervised frameworks that learn effective views by aiming to reduce their MI. We also consider data augmentation as a way to reduce MI, and show that increasing data augmentation indeed leads to decreasing MI and improves downstream classification accuracy. As a by-product, we also achieve a new state-of-the-art accuracy on unsupervised pre-training for ImageNet classification (73% top-1 linear readoff with a ResNet-50). In addition, transferring our models to PASCAL VOC object detection and COCO instance segmentation consistently outperforms supervised pre-training. Code:http://github.com/HobbitLong/PyContrast
updated: Tue Dec 08 2020 18:59:33 GMT+0000 (UTC)
published: Wed May 20 2020 17:59:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト