arXiv reaDer
教師なし表現学習のための統合混合ビュー フレームワーク
A Unified Mixture-View Framework for Unsupervised Representation Learning
最近の教師なし対照表現学習は、単一インスタンス マルチビュー (SIM) パラダイムに従います。このパラダイムでは、通常、イメージ内データ拡張を使用してポジティブ ペアが構築されます。この論文では、Beyond Single Instance Multi-view (BSIM) と呼ばれる効果的なアプローチを提案します。具体的には、ランダムにサンプリングされた 2 つのインスタンスとそれらの混合物、つまりスプリアスとポジティブのペアの間の結合類似性を測定することにより、より正確なインスタンス識別機能を課します。符号化された特徴が潜在空間でより均等に分散されている場合、共同類似性を学習することでパフォーマンスが向上すると考えています。現在の優れた方法である SimCLR、MoCo、および BYOL を含む、教師なしの対照表現学習の直交改善としてこれを適用します。 ImageNet-1k と PASCAL VOC 2007 での線形分類、MS COCO 2017 と VOC でのオブジェクト検出など、多くのダウンストリーム ベンチマークで学習した表現を評価します。先行技術と比較して、これらのほとんどすべてのタスクで大幅な利益を得ることができます。
Recent unsupervised contrastive representation learning follows a Single Instance Multi-view (SIM) paradigm where positive pairs are usually constructed with intra-image data augmentation. In this paper, we propose an effective approach called Beyond Single Instance Multi-view (BSIM). Specifically, we impose more accurate instance discrimination capability by measuring the joint similarity between two randomly sampled instances and their mixture, namely spurious-positive pairs. We believe that learning joint similarity helps to improve the performance when encoded features are distributed more evenly in the latent space. We apply it as an orthogonal improvement for unsupervised contrastive representation learning, including current outstanding methods SimCLR, MoCo, and BYOL. We evaluate our learned representations on many downstream benchmarks like linear classification on ImageNet-1k and PASCAL VOC 2007, object detection on MS COCO 2017 and VOC, etc. We obtain substantial gains with a large margin almost on all these tasks compared with prior arts.
updated: Mon Oct 10 2022 08:29:35 GMT+0000 (UTC)
published: Thu Nov 26 2020 15:43:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト