Self-supervised Learning is More Robust to Dataset Imbalance
自己教師あり学習(SSL)は、ラベルなしで学習するため、一般的な視覚的表現を学習するためのスケーラブルな方法です。ただし、実際の大規模なラベルなしデータセットには、SSLの動作についてほとんど知られていない、ロングテールのラベル分布が含まれていることがよくあります。この作業では、データセットの不均衡の下での自己教師あり学習を体系的に調査します。まず、広範な実験を通じて、既成の自己監視表現は、監視表現よりもクラスの不均衡に対してすでに堅牢であることがわかりました。 SSLを使用したバランスの取れた事前トレーニングと不均衡な事前トレーニングの間のパフォーマンスのギャップは、ドメイン内および特にドメイン外の評価の両方で、サンプルサイズ全体で教師あり学習を使用した場合のギャップよりも大幅に小さくなります。次に、SSLの堅牢性を理解するために、SSLは頻繁なデータからより豊富な機能を学習すると仮定します。SSLは、まれなクラスとダウンストリームタスクの分類に役立つラベルとは無関係であるが転送可能な機能を学習する可能性があります。対照的に、教師あり学習には、頻繁な例からラベルに関係のない機能を学習するインセンティブがありません。簡略化された設定での半合成実験と理論的分析を使用して、この仮説を検証します。第三に、理論的洞察に触発されて、いくつかの評価基準で不均衡なデータセットのSSL表現品質を一貫して改善し、同じ数の例で均衡のあるデータセットと不均衡なデータセットの間の小さなギャップを埋める、再重み付けされた正則化手法を考案します。
Self-supervised learning (SSL) is a scalable way to learn general visual representations since it learns without labels. However, large-scale unlabeled datasets in the wild often have long-tailed label distributions, where we know little about the behavior of SSL. In this work, we systematically investigate self-supervised learning under dataset imbalance. First, we find out via extensive experiments that off-the-shelf self-supervised representations are already more robust to class imbalance than supervised representations. The performance gap between balanced and imbalanced pre-training with SSL is significantly smaller than the gap with supervised learning, across sample sizes, for both in-domain and, especially, out-of-domain evaluation. Second, towards understanding the robustness of SSL, we hypothesize that SSL learns richer features from frequent data: it may learn label-irrelevant-but-transferable features that help classify the rare classes and downstream tasks. In contrast, supervised learning has no incentive to learn features irrelevant to the labels from frequent examples. We validate this hypothesis with semi-synthetic experiments and theoretical analyses on a simplified setting. Third, inspired by the theoretical insights, we devise a re-weighted regularization technique that consistently improves the SSL representation quality on imbalanced datasets with several evaluation criteria, closing the small gap between balanced and imbalanced datasets with the same number of examples.
updated: Mon Oct 11 2021 06:29:56 GMT+0000 (UTC)
published: Mon Oct 11 2021 06:29:56 GMT+0000 (UTC)
