arXiv reaDer
密な視覚表現の教師なし学習
Unsupervised Learning of Dense Visual Representations
対照的な自己教師あり学習は、教師なし視覚表現学習への有望なアプローチとして浮上しています。一般に、これらのメソッドは、同じ画像のさまざまなビュー(つまり、データ拡張の構成)に対して不変であるグローバル(画像レベル)表現を学習します。ただし、多くの視覚的理解タスクでは、密な(ピクセルレベルの)表現が必要です。この論文では、密な表現の教師なし学習のために、ビューにとらわれない密な表現(VADeR)を提案します。 VADeRは、さまざまな表示条件でローカルフィーチャを一定に保つことにより、ピクセル単位の表現を学習します。具体的には、これはピクセルレベルの対照学習によって実現されます。一致する特徴(つまり、異なるビューでシーンの同じ場所を表す特徴)は埋め込みスペース内で近く、一致しない特徴は離れている必要があります。 VADeRは、密な予測タスクの自然な表現を提供し、ダウンストリームタスクに適切に転送します。私たちの方法は、複数の密な予測タスクにおいて、ImageNetの教師あり事前トレーニング(および強力な教師なしベースライン)よりも優れています。
Contrastive self-supervised learning has emerged as a promising approach to unsupervised visual representation learning. In general, these methods learn global (image-level) representations that are invariant to different views (i.e., compositions of data augmentation) of the same image. However, many visual understanding tasks require dense (pixel-level) representations. In this paper, we propose View-Agnostic Dense Representation (VADeR) for unsupervised learning of dense representations. VADeR learns pixelwise representations by forcing local features to remain constant over different viewing conditions. Specifically, this is achieved through pixel-level contrastive learning: matching features (that is, features that describes the same location of the scene on different views) should be close in an embedding space, while non-matching features should be apart. VADeR provides a natural representation for dense prediction tasks and transfers well to downstream tasks. Our method outperforms ImageNet supervised pretraining (and strong unsupervised baselines) in multiple dense prediction tasks.
updated: Mon Dec 07 2020 20:16:40 GMT+0000 (UTC)
published: Wed Nov 11 2020 01:28:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト